第五章 多重共线性的概念
多重共线性

解决方法
解决方法
(1)排除引起共线性的变量 找出引起多重共线性的解释变量,将它排除出去,以逐步回归法得到最广泛的应用。 (2)差分法 时间序列数据、线性模型:将原模型变换为差分模型。 (3)减小参数估计量的方差:岭回归法(Ridge Regression)。 (4)简单相关系数检验法
谢谢观看
简介
简介
对线性回归模型 基本假设之一是自变量,之间不存在严格的线性关系。如不然,则会对回归参数估计带来严重影响。为了说 明这一点,首先来计算线性回归模型参数的 LS估计的均方误差。为此。重写线性回归模型的矩阵形式为 其中服从多元正态分布,设计矩阵 X是的,且秩为 p。这时,参数的 LS估计为,而回归系数的 LS估计为。 注意到由此获得的 LS估计是无偏的,于是估计的均方误差为 其中是的特征根。显然,如果至少有一个特征根非常接近于零,则就很大,也就不再是的一个好的估计。由 线性代数的理论知道,若矩阵的某个特质根接近零,就意味着矩阵 X的列向量之间存在近似线性关系。 如果存在一组不全为零的数,使得 则称线性回归模型存在完全共线性;如果还存在随机误差 v,满足,使得 则称线性回归模型存在非完全共线性。 如果线性回归模型存在完全共线性,则回归系数的 LS估计不存在,因此,在线性回归分析中所谈的共线性 主要是非完全共线性,也称为复共线性。判断复共线性及其严重程度的方法主要有特征分析法(analysis of eigenvalue),条件数法 (conditional numbers)和方差扩大因子法(variance inflation factor)。
产生原因
产生原因
主要有3个方面: (1)经济变量相关的共同趋势 (2)滞后变量的引入 (3)样本资料的限制
影响
影响
经济统计学中的多重共线性问题

经济统计学中的多重共线性问题在经济统计学中,多重共线性是一个常见且重要的问题。
它指的是在经济模型中,解释变量之间存在高度相关性,导致模型的稳定性和可靠性受到影响。
本文将探讨多重共线性问题的原因、影响以及解决方法。
一、多重共线性问题的原因多重共线性问题的产生通常有两个主要原因。
首先,解释变量之间存在线性关系。
例如,在研究经济增长时,我们可能会使用国内生产总值(GDP)、人均收入和就业率等变量作为解释变量。
然而,这些变量之间可能存在高度相关性,比如GDP和人均收入之间往往呈正相关关系。
这种线性关系会导致多重共线性问题。
其次,数据的选择和收集方式也可能导致多重共线性问题。
在进行经济统计研究时,我们需要收集大量的数据,以支持我们的模型分析。
然而,由于数据的可获得性和可靠性等因素,我们可能只能选择一部分相关的变量进行研究。
这样一来,我们就有可能忽略了一些重要的解释变量,从而导致多重共线性问题的出现。
二、多重共线性问题的影响多重共线性问题对经济统计分析的结果产生了一系列的影响。
首先,它会导致模型的稳定性下降。
由于解释变量之间存在高度相关性,模型的回归系数估计值会变得不稳定。
这意味着即使微小的数据变动,也可能导致回归系数的巨大变化,从而影响对模型的解释和预测能力。
其次,多重共线性问题还会导致模型的可靠性下降。
由于解释变量之间存在高度相关性,模型的回归系数估计值可能变得不准确。
这意味着我们无法准确地判断解释变量对因变量的影响程度。
如果我们在政策制定或决策分析中依赖于这些模型结果,就可能导致错误的判断和决策。
三、解决多重共线性问题的方法针对多重共线性问题,经济统计学提出了一些解决方法。
首先,我们可以通过增加样本量来减轻多重共线性问题。
更大的样本量会提供更多的数据点,从而减少解释变量之间的相关性。
这样一来,模型的稳定性和可靠性都会有所提高。
其次,我们可以通过引入新的解释变量来解决多重共线性问题。
这些新的解释变量应该与原有的解释变量有一定的相关性,但又不会导致高度相关。
多重共线性

多重共线性多重共线性(multicollinearity )的特征● 多重共线性是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系:0...2211=+++k k X X X λλλ其中k λλλ,...,,21为常数,但不同时为零。
● 0...2211≈+++k k X X X λλλ, 近似的多重共线性● 通过巴伦坦图做简单的描述。
共线性部分可用两圆圈的重叠部分来衡量。
重叠部分越大,共线性程度越高。
● 我们定义的多重共线性仅对X 变量之间的线性关系而言,它们之间的非线性关系并不违反无多重共线性的假设i i i i u X X Y +++=2210βββ多重共线性的后果●如果多重共线性是完全的,诸X变量的回归系数将是不正确的,并且它们的标准误差为无穷大●如果多重共线性是不完全的,那末,虽然回归系数可以确定,却有较大的标准误差,意思是,系数不能以很高的精确或准精确加以估计,这会导致:-参数估计不精确,也不稳定-参数估计量的标准差较大,影响系数的显著性检验●多重共线性产生的后果具有一定的不确定性●在近似的多重共线性的情况下,只要模型满足CLRM 假定,回归系数就为BLUE,但特定的样本估计量并不一定等于真值。
多重共线性的来源(1)许多经济变量在时间上由共同变动的趋势,如:收入,投资,消费(2)把一些经济变量的滞后值也作为解释变量在模型中使用,而解释变量和滞后变量通常相关,如:消费和过去的收入多重共线性一般与时间序列有关,但在横截面数据中也经常出现多重共线性的检验● 多重共线性是普遍存在的,造成的后果也比较复杂,对多重共线性的检验缺少统一的准则- 对有两个解释变量的模型,作散点图,或相 关系数,或拟和优度R平方。
- 对有多个解释变量的模型,分别用一个解释 变量对其它解释变量进行线性回归,计算拟 和优度22221,...,,k R R R- 考察参数估计值的符号,符不符合理论 - 增加或减少解释变量,考察参数估计值的变 化- 对比拟和优度和t检验值多重共线性的修正方法● 增加样本观测值,如果多重共线性是由样本引起的,可以通过收集更多的观测值增加样本容量。
期末精华:计量经济学针对三种误差检验方法

2、近似共线性下普通最小二乘法参数估计量 非有效
在一般共线性(或称近似共线性)下,虽然可以得 到OLS法参数估计量,但是由参数估计量方差的表达 式为
Cov(ˆ ) 2 (XX)1
RESET 检验是 Regression Specification Error Test (回归设定误差检验)的简写。
设 y x β zc ε 设定误差检验是检验上式中 c 是否为零。 但关键哪些变量应该进入 z 呢? (1)在缺失变量的情况下,那些缺失变量将构成 z。 (2)在方程设定有误时,应如何处理呢?
第五章 计量经济学检验 ——违背基本假设的情况
❖ 一方面,建立一个计量经济学模型要经过四 重检验,其中经济意义检验、统计检验、预 测检验已讲,这一章主要讲计量经济学检验 的范畴。
❖ 另一方面,前面讨论了最小二乘估计的优良 性质,但都是基于经典假设。如果这些假设 不满足,会出现什么问题呢?这一章对其进 行分析。
(3) 用F检验比较两个方程的拟合情况(类似于上一章中 联合假设检验采用的方法),如果两方程总体拟合情况 显著不同,则我们得出原方程可能存在误设定的结论。 使用的检验统计量为:
F (RSSM RSS ) / M RSS /(n k 1)
其中:RSSM为第一步中回归(有约束回归)的残差 平方和,RSS为第二步中回归(无约束回归)的残差 平方和,M为约束条件的个数,这里是M=3。
四、 解决解释变量误设定问题的原则
在模型设定中的一般原则是尽量不漏掉有关的解 释变量。因为估计量有偏比增大误差更严重。但如 果方差很大,得到的无偏估计量也就没有多大意义 了,因此也不宜随意乱增加解释变量。
在回归实践中,有时要对某个变量是否应该作为 解释变量包括在方程中作出准确的判断确实不是一 件容易的事,因为目前还没有行之有效的方法可供 使用。尽管如此,还是有一些有助于我们进行判断 的准则可用,它们是:
第三节 多重共线性

i=1,2,…,n
其中ci不全为0,vi为随机误差项,则称为 近似共线 性 ( approximate multicollinearity ) 或 交 互 相 关 (intercorrelated)。
在矩阵表示的线性回归模型 Y=Xβ+µ β µ 中,完全共线性指:秩(X)<k+1,即 完全共线性指 完全共线性
σ2
其中r12为x1 , x2的相关系数. 1 2 由于r12 ≤ 1, 故 = VIF ≥ 1. 2 ˆ 1 − r12
VIF为方差膨胀因子 为方差膨胀因子(Variance 称VIF为方差膨胀因子(Variance Inflating Factor)
当完全不共线 完全不共线时, 完全不共线
2 ˆ r12 = 0, D ( β1 ) =
注意: 注意:
除非是完全共线性,多重共线性并不意味 着任何基本假设的违背(G-M假设中对有无共 线性无特别要求!); 因此,即使出现较高程度的多重共线性, OLS估计量仍具有线性性等良好的统计性质。 问题在于,即使OLS法仍是最好的估计方 问题在于 法,它却不是“完美的”,尤其是在统计推断 上无法给出真正有用的信息。
易见 : 0 ≤ TOL ≤ 1.一般 : 当TOL < 0.1时, 认为模型 存在较严重的多重共线性!
二、多重共线性的影响 1、完全共线性下参数估计量不存在
Y = Xβ+ μ β
的OLS估计量为:
ˆ β= ( X ′X ) −1 X ′Y
如果存在完全共线性, 不存在, 如果存在完全共线性,则(X’X)-1不存在,无法得 完全共线性 到参数的估计量。 到参数的估计量。
例:对离差形式的二元回归模型
y = β 1 x1 + β 2 x 2 + µ
4.3多重共线性

5.模型的预测功能受到限制
变大的方差容易使区间预测的 “区间”变大,使区间预测可靠性降 低。 在解释变量之间的相关结构得以 保持的条件下,模型仍可用于预测。
综上所述
严重的多重共线性常常会导致下列情形出现: 使得用普通最小二乘法得到的回归参数估计值很 不稳定,回归系数的方差随着多重共线性强度的增加 而加速增长,对参数难以做出精确的估计;造成回归 方程高度显著的情况下,有些回归系数通不过显著性 检验;甚至可能出现回归系数的正负号得不到合理的 经济解释。 但是应注意,如果研究的目的仅在于预测被解释 变量Y,而各个解释变量X之间的多重共线性关系的性 质在未来将继续保持,这时虽然无法精确估计个别的 回归系数,但可估计这些系数的某些线性组合,因此 多重共线性可能并不是严重问题。
当不完全共线(近似共线)时,
ˆ ) = var( β 1
3.参数估计量经济含义不合理
,
如果模型中两个解释变量具有线性相关 性,例如X1 和X2 ,那么它们中的一个变量可以由 另一个变量近似表征。 这时,X1和X2前的参数估计并不反映各自与 被解释变量之间的结构关系,而是反映它们对被 解释变量的共同影响。 所以各自的参数估计可能已经失去了应有的 经济含义,于是经常表现出似乎反常的现象,例 如本来应该是正的,结果却是负的。(137)
0 < r2 <1
∑
σ
2
x 12i
•
1 > 1− r2
∑
σ
2
x 12i
βˆ = ( X ′X ) − 1 X ′Y
如果存在完全共线性,则(X’X) -1 不存在,无法得到参数唯一的估计量。 即:多重共线性使参数估计值的方差增大
2
4.变量的显著性检验可靠性差
多重共线性
多重共线性基本概念(1)多重共线性; (2)完全多重共线性;(3)不完全多重共线性;练习题1、什么是变量之间的多重共线性?举例说明。
2、判断题:(1)存在完全多重共线性时,模型参数无法估计;(2)存在多重共线性时,一定会使参数估计值的方差增大,从而造成估计效率的损失; 3、完全多重共线性和不完全多重共线性之间的区别是什么? 4、产生多重共线性的经济背景是什么?5、多重共线性的危害是什么?为什么会造成这些危害?检验多重共线性的方法思路是什么?有哪些克服方法?6、考虑下列一组数据Y-10 -8 -6 -4 -2 0 2 4 6 8 10 2X 1 2 3 4 5 6 7 8 9 10 11 3X13579111315171921现在我们进行如下的回归分析:12233i i Y X X u βββ=+++请回答如下问题:(1)你能估计出该模型的参数吗?为什么? (2)如果不能,你能估计哪一参数或参数组合? 7、将下列函数用适当的方法消除多重共线性: (1)消费函数为012C W P u βββ=+++其中C 、W 、P 分别表示消费、工资收入和非工资收入,W 和P 可能高度相关,但研究表明122ββ=。
(2)需求函数为0123s Q Y P P u ββββ=++++其中Q 、Y 、P 和s P 分别为需求量、收入水平、该商品价格水平及其替代品价格水平,P 和s P可能高度相关。
基本概念解释(1)多重共线性指两个或两个以上解释变量之间存在某种线性相关关系。
(2)完全多重共线性指,在有多个解释变量模型中,解释变量之间的线性关系是准确的。
在此情况下,不能估计解释变量各自对被解释变量的影响。
(3)不完全多重共线性指,在实际经济活动中,多个解释变量之间存在多重共线性问题,但解释变量之间的线性关系是近似的,而不是完全的。
练习题答案1、如果在经典回归模型Y X U β=+中,如果基本假定6遭到破坏,则有()1k r x k <+,此时称解释变量之间存在完全多重共线性。
多重共线性
模型中则有 Y i0 (1* )X 1 i (2 k 1* )X 2 i u i
虽然完全等价,但回归系数却显然不同 ,说明这时 参数值的估计不唯一确定 .
从经济意义上讲,如果取 1,那么(1 )< 0 这表明,随耕地面积的增加农产量将会减少,这显 然是十分荒谬的结论。
2.参数估计量经济含义不合理
如果模型中两个解释变量具有线性相关性, 例如 X2= kX1 ,
这时,X1和X2前的参数1、2并不反映各自与
被解释变量之间的结构关系,而是反映它们对被 解释变量的共同影响。
1、2已经失去了应有的偏回归系数经济含义, 甚至经常表现出似乎反常的现象:例如1本来应
该是正的,结果却是负的。
问题在于,即使OLS法仍是最好的估计方 法,它却不是“完美的”,尤其是在统计推 断上无法给出重共线性表现为一种样本现象,即使总体不存 在多重共线性,所得样本也可能出现多重共线性。 而且由于抽样波动,对于同一总体,不同样本的共 线性程度也不相同。因此,对于多重共线性的检验, 可以直接对所得样本进行分析做出判断。
完全多重共线性的后果(一般)
对于二元线性回归模 型 Y i01 X 1 i2 X 2 i u i
其参数1的OLS估计式为:
ˆ1
x1i yi x2i2 x2i yi x1i x2i x12i x22i ( x1i x2i )2
x1i yi x12i
x2i yi x12i
估计量有较大的标准差,因此参数真值的置信区间
也将增大。 [ˆj tSE ˆ(ˆj),ˆj tSE ˆ(ˆj)]
2
2
此置信区间将随
SEˆ(ˆj )
ˆ2 1
如何进行回归模型的诊断检验什么是多重共线性
如何进行回归模型的诊断检验什么是多重共线性如何进行回归模型的诊断检验——什么是多重共线性回归模型是统计学中常用的一种分析方法,用于研究自变量与因变量之间的关系。
然而,当回归模型存在问题时,我们需要进行诊断检验,以确保模型的可靠性和准确性。
本文将重点探讨回归模型的诊断检验方法,同时介绍多重共线性的概念和影响。
一、模型假设在进行回归模型的诊断检验之前,我们首先需要了解模型的基本假设。
回归模型的基本假设包括线性关系、误差项的正态分布、同方差性和误差项的独立性。
如果这些假设不满足,将影响模型的结果和推断。
二、常见的回归模型诊断检验方法1. 残差分析残差是实际观测值与回归模型的预测值之间的差异。
通过对残差进行分析,我们可以评估回归模型中是否存在异常值、离群点和非线性关系。
常见的残差分析方法包括残差图、QQ图和残差的自相关检验。
(这里可以具体介绍如何绘制和解读残差图和QQ图,以及如何进行残差的自相关检验)2. 杂项检验在回归模型中,杂项是指未被模型解释的因素。
通过对杂项进行检验,我们可以判断模型是否被未考虑的因素扰动。
常见的杂项检验方法包括D-W检验、Breusch-Pagan检验和White检验。
(这里可以具体介绍杂项检验的原理和步骤)3. 多重共线性检验多重共线性指的是回归模型中多个自变量之间存在高度相关的情况,从而导致模型估计的不稳定性和可靠性下降。
为了检验多重共线性,常见的方法包括方差膨胀因子(VIF)和条件数。
(这里可以具体介绍VIF和条件数的计算方法和阈值判断)三、什么是多重共线性多重共线性是指回归模型中存在高度相关的自变量,从而导致参数估计的不准确性。
多重共线性不仅会影响模型的解释能力和预测准确度,还会使得回归系数的符号和大小发生变化,增加了解释模型的难度。
多重共线性的判断主要是通过计算变量之间的相关系数来完成。
一般认为,当变量间的相关系数大于0.7或0.8时,存在高度的多重共线性。
多重共线性的影响主要体现在模型估计的不稳定性、参数的不准确性以及变量的显著性判断上。
第五章经典线性回归模型(II)(高级计量经济学清华大学潘文清)
X1’X1b1+X1’X2b2=X1’Y (*) X2’X1b1+X2’X2b2=X2’Y (**) 由(**)得 b2=(X2’X2)-1X2’Y-(X2’X2)-1X2’X1b1 代入(*)且整理得: X1’M2X1b1=X1’M2Y b1=(X1’M2X1)-1X1’M2Y=X1-1M2Y=b* 其中,M2=I-X2(X2’X2)-1X2’ 又 M2Y=M2X1b1+M2X2b2+M2e1 而 M2X2=0, M2e1=e1-X2(X2’X2)-1X2’e1=e1 则 M2Y=M2X1b1+e1 或 e1=M2Y-M2X1b1=e* 或
X2=X1Q1+(I-P1)X2 =explained part + residuals
其中,Q1=(X1’X1)-1X1’X2
对
X2=X1Q1+(I-P1)X2 =X1Q1+M1X2
=explained part + residuals
M1X2就是排除了X1的其他因素对X2的“净”影响。
X2对X1的回归称为辅助回归(aon: 如何测度X1对Y的“净”影响? 部分回归(Partial regression) Step 1: 排除X2的影响。 将Y对X2回归,得“残差”M2Y=[(I-X2(X2’X2)-1X2’]Y 将X1对X2回归,得“残差”M2X1=[(I-X2(X2’X2)1X ’]X 1 M 2Y为排除了 X 的净Y,M X 为排除了X 的净X
2 2 2 1 2
1
Step 2: 估计X1对Y的“净”影响。
将 M2Y对M2X1回归,得X1对Y的“净”影响:
M2Y=M2X1b*+e*
这里,b*=[(M2X1)’(M2X1)]-1(M2X1)’M2Y=X1-1M2Y e*=M2Y-M2X1b*
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3、模型中大量地采用滞后变量 、 滞后变量也易产生多重共线性 滞后变量 例如: 例如:在研究消费函数Y的时候,如果记可支配收入为X ,若在模型
σ2
恰为X1与X2的线性相关系数的平方r2 ∑x ∑x
2 1i 2 2i
(∑ x1i x 2i ) 2
由于 r2 ≤1,故 1/(1- r2 )≥1
完全不共线时, 当完全不共线 完全不共线
r2
=0
ˆ var( β 1 ) = σ 2 / ∑ x12i
1 σ2 ˆ ⋅ > var(β 1 ) = 2 2 x1i 1 − r x12i ∑ ∑
2.
判明存在多重共线性的范围
如果存在多重共线性,需进一步确定究竟由 哪些变量引起。 (1) 判定系数检验法 使模型中每一个解释变量分别以其余解释变 量为解释变量进行回归,并计算相应的拟合优度。 如果某一种回归: Xji=α1X1i+α2X2i+…αLXLi 的判定系数 判定系数较大,说明Xj与其他X间存在共线性 共线性。 判定系数 共线性
(2)逐步回归法 (2)逐步回归法 以Y为被解释变量,逐个引入解释变量,构 成回归模型,进行模型估计。 根据拟合优度的变化决定新引入的变量是否 独立。 如果拟合优度变化显著,则说明新引入的变 如果拟合优度变化显著 量是一个独立解释变量; 如果拟合优度变化很不显著,则说明新引入 如果拟合优度变化很不显著 的变量与其它变量之间存在共线性关系。
β1、 β2已经失去了应有的经济含义,于 是经常表现出似乎反常的现象 似乎反常的现象:例如 β 1 本来 似乎反常的现象
应该是正的,结果恰是负的。
Y 1 X1 (a) 2 X2 X1 3
Y 5 4 X2
(b)
4.
变量的显著性检验失去意义 存在多重共线性时 参数估计值的方差与标准差变大 容易使通过样本计算的t值小于临界值, 容易使通过样本计算的 值小于临界值, 值小于临界值 误导作出参数为0的推断 误导作出参数为 的推断 可能将重要的解释变量排除在模型之外
当近似共线 近似共线时, 0< r2 <1 近似共线
σ2
多重共线性使参数估计值的方差增大 重共线性使参数估计值的方差增大,1/(1-r2) 重共线性使参数估计值的方差增大 为方差膨胀因子 方差膨胀因子(Variance Inflation Factor, 方差膨胀因子 VIF) 表 4.3.1 方差膨胀因子表
y = (β1 + λβ2 )x1 + µ
这时,只能确定综合参数β1+λβ2的估计值:
2.
近似共线性下OLS估计量非有效 近似共线性下 估计量非有效
近似共线性下,可以得到OLS参数估计量, 但参数估计量方差 方差的表达式为 方差
ˆ) Cov(β = σ 2 ( X′X) −1
由于|X’X|≈0,引起(X’X) -1 主对角线元素较 大,使参数估计值的方差增大,OLS参数估计量 参数估计量 非有效。 非有效。
SE =(6.7525) ( ) t =(3.6690) ( ) (0.8229) ) (1.1442) ) (0.0807) ) (- 0.5261) )
R 2 = 0.9531
F=92.4020 = .
例2:某国家分折汽车保养费用支出Y(元)与汽车的 : 行程数X2 (公里)以及汽车拥有的时间X3(周)的关系。 建立如下回归方程:
ˆ Y = 7.29 + 27.58X2 −15161.5X3
SE =(121.50) t =(0.06) ( ) (28.79) (0.958) ) (21.41) (- 7.06) )
R 2 = 0.946
我们发现: 值小。 我们发现:例1中X2、X3的 t 值小。且X3的系数符号 中 的系数符号 与经济意义不符和。原因? 与经济意义不符和。原因? 值大, 的系数符号与经济意义不符合。 例2中X3的 t 值大,但X3的系数符号与经济意义不符合。 原因? 原因?
解决问题的思路
• • • • 1、定义违反各个基本假定的基本概念 2、违反基本假定的原因、背景 3、诊断基本假定的违反 4、违反基本假定的补救措施(修正)
一、多重共线性的概念 对于模型 Yi=β0+β1X1i+β2X2i+…+βkXki+µi i=1,2,…,n 其基本假设之一是解释变量是互相独立的。
Y = Xβ+ μ β
的OLS估计量为:
ˆ β= ( X ′X ) −1 X ′Y
如果存在完全共线性,则(X’X)-1不存在,无法得 完全共线性, 完全共线性 到参数的估计量。
例:对离差形式的二元回归模型
y = β 1 x1 + β 2 x 2 + µ
如果两个解释变量完全相关,如x2= λx1,则
中引入本期可支配收入,还考虑了以往各期的可支配收入,那么同一 变量的前后期 之值极有可能是高度线性相关的,故可能产生多重共线 性。
例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相关性。 4、建模时由于认识的局限性,变量的选择不当 、 认识的局限性, 认识的局限性 例如: 粮食产量线性回归模型时,考虑引入解释变 例如:在分析建立某省粮食产量 粮食产量
如果某两个或多个解释变量之间出现了相关 性,则称为多重共线性 多重共线性(Multicollinearity)。 多重共线性
如果存在 c1X1i+c2X2i+…+ckXki=0 i=1,2,…,n 其中: ci不全为0,则称为解释变量间存在完全共 则称为解释变量间存在完全共 则称为解释变量间存在 线性( 线性(perfect multicollinearity)。 ) 如果存在 c1X1i+c2X2i+…+ckXki+vi=0 i=1,2,…,n 其中ci不全为0,vi为随机误差项,则称为 近似 共线性(approximate multicollinearity)或交 共线性 交 互相关(intercorrelated)。 互相关
若存在较强的共线性,则Rj•2较大且接近 于1,这时(1- Rj•2 )较小,从而Fj的值较大。 因此,给定显著性水平α,计算F值,并与 相应的临界值比较,来判定是否存在相关性。 另一等价的检验是: 另一等价的检验 : 在模型中排除某一个解释变量Xj,估计模型; 如果拟合优度与包含Xj时十分接近,则说明Xj 与其它解释变量之间存在共线性。
第五章
多重共线性
一、多重共线性的概念 二、实际经济问题中的多重共线性 三、多重共线性的后果 四、多重共线性的检验 五、克服多重共线性的方法 六、案例
两个实例
例1:某地区为研究不同家庭的消费Y与收入X2 的关系,在此基础上,还引进了消费者家庭财富 状况X3作为第二个解释变量。回归方程为:
ˆ Y = 24.7747 + 0.9415X2 − 0.0424X3
相关系数平方 方差膨胀因子 0 1 0.5 2 0.8 5 0.9 10 0.95 20 0.96 25 0.97 33 0.98 50 0.99 100 0.999 1000
当完全共线 完全共线时, 完全共线
r2=1,
ˆ var(β 1 ) = ∞
3.
参数估计量经济含义不合理
如果模型中两个解释变量具有线性相关 性,例如 X2= λX1 , 这时,X1和X2前的参数β1、β2并不反映 各自与被解释变量之间的结构关系,而是反 映它们对被解释变量的共同影响。
在矩阵表示的线性回归模型 Y=Xβ+µ β µ 中,完全共线性指:秩(X)<k+1,即 完全共线性指 完全共线性
1 1 X = L 1 X 11 X 12 L X 1n X 21 X 22 L X 2n L L L L X k1 X k2 L X kn
仍以二元线性模型 y=β1x1+β2x2+µ 为例:
−1 ˆ var(β1 ) = σ 2 ( X ′X )11 = 2 σ 2 ∑ x2i
∑x
2 1i
∑ x − (∑ x1i x2i )
2 2i
Байду номын сангаас
2
=
σ 2 / ∑ x12i
1 − (∑ x1i x2i ) 2
2 x12i ∑ x2i ∑
1 = ⋅ 2 x1i 1 − r 2 ∑
1.
检验多重共线性是否存在
(1)对两个解释变量的模型,采用简单相关系数法 (1)对两个解释变量的模型,采用简单相关系数法 对两个解释变量的模型 求出X1与X2的简单相关系数r,若|r|接近1,则 说明两变量存在较强的多重共线性。 (2)对多个解释变量的模型,采用综合统计检验法 (2)对多个解释变量的模型, 对多个解释变量的模型 若在OLS法下:R2与F值较大,但t检验值较小,说明 各解释变量对Y的联合线性作用显著,但各解释变量间存 在共线性而使得它们对Y的独立作用不能分辨,故t检验不 显著。即R2较大但t值显著的不多。另外判断参数估计值 的符号,如果不符合经济理论或实际情况,可能存在多重 共线性。
量化肥使用量 2、灌溉面积 3、农业生产资金投入 4 (在X2、X3 化肥使用量X 灌溉面积X 农业生产资金投入 农业生产资金投入X 化肥使用量 和X4之间存在很强的相关性,由于化肥使用量和灌溉面积都受农业资 金投入的影响)。 因此可以考虑去掉农业生产资金投入变量X4。
三、多重共线性的后果
1. 完全共线性下参数估计量不存在
四、多重共线性的检验
多重共线性表现为解释变量之间具有相关关 系,所以用于多重共线性的检验方法主要是统 用于多重共线性的检验方法主要是统 计方法:如判定系数检验法 逐步回归检验法 判定系数检验法、逐步回归检验法 计方法 判定系数检验法 等。 多重共线性检验的任务是: 多重共线性检验的任务 (1)检验多重共线性是否存在; (2)估计多重共线性的范围,即判断哪些变量 之间存在共线性。