8第八章:多重共线性及其改进方法

合集下载

多重共线性PPT课件

多重共线性PPT课件

协方差同理。
方差膨胀因子(variance-inflating factor, VIF)
1 VIF 1 r223
所以 var b2
2
x22i VIF
2-21
8.5 多重共线性的诊断
在任一给定的情况下,特别是在涉及多于两 个解释变量的模型中,我们怎么知道有没有 共线性?
2-22
1.多重共线性是一个程度问题而不是有无问 题。有意义的区分不在于有无之间,而在于 程度大小。
因为 数。
b2 b3 是一个方程,却有两个未知
对给定的alpha和lamda值,有无穷多个解。
2-15
出现“高度”但“不完全”多重共线性 时的估计问题
仍以上述三变量回归模型为例。 假定 X3i X 2i vi ,其中 vi x2i 0
回归系数估计:
b2
yi x2i 2 x22i vi2
yi x2i
第8章 多重共线性:解释变量
相关会有什么后果?
McGraw-Hill/Irwin
Copyright © 2006 The McGraw-Hill Companies, Inc. All rights reserved.
问题
多重共线性的性质是什么? 多重共线性是否是一个严重的问题? 多重共线性的理论后果是什么? 多重共线性的实际后果是什么? 实践中如何诊断多重共线性? 消除多重共线性的补救措施有哪些?
但在应用计量经济学中,我们的宗旨就是区 分每个变量的单独影响。
2-13
把 X3i yi
X 2i 代入回归方程: b2 x2i b3 x2i ei b2 b3 x2i ei
x2i ei
利用OLS公式得:
b2 b3
x2i yi x22i

多元回归分析中的多重共线性及其解决方法

多元回归分析中的多重共线性及其解决方法

多元回归分析中的多重共线性及其解决方法在多元回归分析中,多重共线性是一个常见的问题,特别是在自变量之间存在高度相关性的情况下。

多重共线性指的是自变量之间存在线性相关性,这会造成回归模型的稳定性和可靠性下降,使得解释变量的效果难以准确估计。

本文将介绍多重共线性的原因及其解决方法。

一、多重共线性的原因多重共线性常常发生在自变量之间存在高度相关性的情况下,其主要原因有以下几点:1. 样本数据的问题:样本数据中可能存在过多的冗余信息,或者样本数据的分布不均匀,导致变量之间的相关性增加。

2. 选择自变量的问题:在构建回归模型时,选择了过多具有相似解释作用的自变量,这会增加自变量之间的相关性。

3. 数据采集的问题:数据采集过程中可能存在误差或者不完整数据,导致变量之间的相关性增加。

二、多重共线性的影响多重共线性会对多元回归模型的解释变量产生不良影响,主要表现在以下几个方面:1. 回归系数的不稳定性:多重共线性使得回归系数的估计不稳定,难以准确反映各个自变量对因变量的影响。

2. 系数估计值的无效性:多重共线性会导致回归系数估计偏离其真实值,使得对因变量的解释变得不可靠。

3. 预测的不准确性:多重共线性使得模型的解释能力下降,导致对未知数据的预测不准确。

三、多重共线性的解决方法针对多重共线性问题,我们可以采取以下几种方法来解决:1. 剔除相关变量:通过计算自变量之间的相关系数,发现高度相关的变量,选择其中一个作为代表,将其他相关变量剔除。

2. 主成分分析:主成分分析是一种降维技术,可以通过线性变换将原始自变量转化为一组互不相关的主成分,从而降低多重共线性造成的影响。

3. 岭回归:岭回归是一种改良的最小二乘法估计方法,通过在回归模型中加入一个惩罚项,使得回归系数的估计更加稳定。

4. 方差膨胀因子(VIF):VIF可以用来检测自变量之间的相关性程度,若某个自变量的VIF值大于10,则表明该自变量存在较高的共线性,需要进行处理。

第八章多重共线性PPT学习教案

第八章多重共线性PPT学习教案
第13页/共38页
完全多重共线性是由于在模型设定时把 严格联系的变量引进同一个模型,或者是由 于虚拟变量设置不当引起的。
因此对完全共线性的处理比较简单,只 需要针对性的修改模型,放弃和调整引起完 全共线性的部分变量即可。注意,不能放弃 形成线性关系的所有解释变量,否则造成解 释变量缺落,使模型失去研究意义。
第17页/共38页
三、多重共线性的诊断
(一)多重共线性问题的诊断原则:
❖ 多重共线性是一个样本问题,即使在总体中诸 X变量没有逻辑和理论上的线性关系,但在具
体的样本仍可能有线性关系。
❖ 多重共线性的根源是解释变量之间的样本相关 性,因此分析解释变量之间的样本相关性,进 行单相关或多元相关性的分析检验,是发现和 判断多重共线性问题的基本方法
数据样本时期1978年-2003年(资料来源:《中国统计年鉴
2004》,中国统计出版社2004年版)
第1页/共38页
财政收入模型的EViews估计结果
Variable 农业增加值NZ 工业增加值GZ 建筑业增加值JZZ 总人口TPOP 最终消费CUM 受灾面积SZM
截距项 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat
性(approximate multicollinearity)或交互相关 (intercorrelated)。
第6页/共38页
注意:
完全共线性的情况并不多见, 一般出现的是在一定程度上的 共线性,即近似共线性。
但无论是解释变量之间严格 的线性关系还是较严重的近似 线性关系,都会给多元线性回 归分析造成严重的不利影响, 甚至导致回归模型完全失效。

多重共线性问题及解决方法

多重共线性问题及解决方法

多重共线性问题及解决方法概念所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。

一般来说,由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。

后果参数估计失去其意义检验与检验目前常用的多重共线性诊断方法有:1.自变量的相关系数矩阵R诊断法:研究变量的两两相关分析,如果自变量间的二元相关系数值很大,则认为存在多重共线性。

但无确定的标准判断相关系数的大小与共线性的关系。

有时,相关系数值不大,也不能排除多重共线性的可能。

2.方差膨胀因子(the variance inflation factor,VIF)诊断法:方差膨胀因子表达式为:VIFi=1/(1-R2i)。

其中Ri为自变量xi对其余自变量作回归分析的复相关系数。

当VIFi很大时,表明自变量间存在多重共线性。

该诊断方法也存在临界值不易确定的问题,在应用时须慎重。

3.容忍值(Tolerance,简记为Tol)法:容忍值实际上是VIF的倒数,即Tol=1/VIF。

其取值在0~1之间,Tol越接近1,说明自变量间的共线性越弱。

在应用时一般先预先指定一个T ol值,容忍值小于指定值的变量不能进入方程,从而保证进入方程的变量的相关系数矩阵为非奇异阵,计算结果具有稳定性。

但是,有的自变量即使通过了容忍性检验进入方程,仍可导致结果的不稳定。

4.多元决定系数值诊断法:假定多元回归模型p个自变量,其多元决定系数为R2y(X1,X2,…,Xp)。

分别构成不含其中某个自变量(Xi,i=1,2,…,p)的p个回归模型,并应用最小二乘法准则拟合回归方程,求出它们各自的决定系数R2i(i=1,2,…,p)。

如果其中最大的一个R2k与R2Y很接近,就表明该自变量在模型中对多元决定系数的影响不大,说明该变量对Y总变异的解释能力可由其他自变量代替。

它很有可能是其他自变量的线性组合。

多重共线性的判断与修正

多重共线性的判断与修正

多重共线性的判断与修正一、多重共线性的判断1. 综合统计检验法LS Y C X1 X2 对模型进行OLS, 得到参数估计表(1) 当2,R F 很大,而回归系数的t 检验值小于临界值时,可判定该模型存在多重共线性。

(2) 当完全共线性存在时,模型的OLS 无法进行,Eviews 会提示:矩阵的逆(1()T X X -)不存在。

2. 简单相关系数检验法LS Y C X1 X2 对模型进行OLS, 得到参数估计表中的2R .点击:Quick/Group Statistics/Correlation在对话框中输入:X1 X2 , 点击OK, 即可得到简单相关系数矩阵检验:若存在 i j x x r 接近于1, 或 22,i j x x r R >,则说明,i j x x 之间存在着严重的相关性。

3. 辅助回归法(方差扩大因子法)设 121112...(1)(1)...j j k Xj X X X j X j Xk V ααααα-+=+++-+++++ (j ) LS Xj X1 X2…Xk 对(j) 进行OLS, 得到参数估计表检验:若表中 (2,1)F F k n k α>--+, 则可确定存在多重共线性。

或者(方差扩大因子法):计算211j jVIF R =-, (2j R 为以上方程的可决系数), 若10j VIF ≥, 则可确定存在多重共线性。

4. 逐步回归法1) 首先计算被解释变量对每个解释变量的回归方程,得到基本回归方程:LS Y C Xi OLS ,得到基本回归方程(i), i = 1,2,…,k2) 从这些基本回归方程中选出最合理的方程, 即,2R 取值最大,且t 检验显著。

比方说,0j Y Xj ββ=+3) 在这个选出的方程中增加新的解释变量, 再进行OLS 分析:LS Y C Xj Xi ( i= 1,2,…,j-1, j+1,…k)判断: 如果新加入的解释变量对2R 改进最大, 且每个系数又是t 统计显著,则保留这个新的解释变量。

修正多重共线性的方法

修正多重共线性的方法

修正多重共线性的方法
修正多重共线性的方法有以下几种:
1. 增加样本量:多重共线性通常在样本量较少时更容易出现。

通过增加样本量,可以减少多重共线性的问题。

2. 将相关性较高的变量进行合并或删除:通过合并相关性较高的变量,可以在一定程度上减少多重共线性的问题。

如果相关性非常高,可以考虑删除其中一个变量。

3. 使用正交化方法:正交化方法可以将相关性较高的变量进行正交化,从而减少它们之间的共线性。

常见的正交化方法包括主成分分析(PCA)和典型相关分析(CCA)。

4. 使用稳定的估计方法:一些稳定的估计方法,如岭回归和套索回归,可以在存在多重共线性的情况下获得更稳健的估计结果。

5. 引入先验知识或理论:通过引入先验知识或理论,可以帮助剔除冗余变量或选取更具解释性的变量,从而减少多重共线性的问题。

6. 对变量进行标准化或归一化:将变量进行标准化或归一化,可以减少多重共线性的问题。

7. 利用交互项或多项式项:通过引入交互项或多项式项,可以增加变量之间的非线性关系,从而减少多重共线性的问题。

8. 重新评估模型的目标和解释变量:重新审视模型的目标和解释变量,确保它们与研究问题相关,并且尽量避免多重共线性的问题。

上述方法可以根据具体情况选择其中一种或多种方法进行修正,以减少多重共线性对模型结果的影响。

多重共线性修正

多重共线性修正
∆Yi= Yi- Yi-1 , ∆ Xji= ∆ Xji- ∆ Xj(i-1) , ∆ µi= ∆ µi- ∆ µi-1 新模型 ∆Yi=β1 ∆ X1i+β2 ∆ X2i+…+βk ∆ Xki+ ∆ µi i=2,…,n β β … β
新模型可以有效地消除存在于原模型中的多重共 线性。 一般讲,增量之间的线性关系远比总量之间的线 性关系弱得多。

588 587 1088 1628 1441 1651 2920 1762 1854 2960 4584 8637 12610 12294 9093
△ C(-1)
333 329 383 673 1079 769 909 1909 1196 806 1784 2806 4230 7034 7313
4、检验简单相关系数
列 出 X, K, X X 1 K 0.9883 P 1 0.9804 P 0 0.9878 P1, P0 K 0.9883 1 0.9700 0.9695 的相关系数矩阵: P1 P0 0.9804 0.9878 0.9700 0.9695 1 0.9918 0.9918 1
第一类: 第一类:删除引起共线性解释变量
找出引起多重共线性的解释变量,将 它排除出去,是最为有效的克服多重共线 性问题的方法。 这类方法以逐步回归法为代表,得到 了最广泛的应用。
逐步回归法:
具体步骤 1)先用被解释变量对每一个所考虑的解 释变量做简单回归; 2)以对被解释变量贡献最大的解释变量 所对应的回归方程为基础; 3)逐个引入其余的解释变量。 好处 将统计上不显著的解释变量剔除,最后 保留在模型中的解释变量之间多重共线性不明 显,而且对被解释变量有较好的解释贡献。
减少参数估计量的方法多重共线性的主要后果是参数估计量具有较大的方差所以采取适当方法减小参数估计量的方差虽然没有消除模型中的多重共线性但确能消除多重共线性造成的后果

第8章多重共线性

第8章多重共线性
3) 当 0 rij 1时,解释变量 和 之间存在不完全的线性相关性。实际运用 中遇到最多的是这种情形,这时模型的参数是否能正确的估计,要看 和 之间相关 程度的高低,如果相关程度高,可能会对估计的结果带来很大的影响。
Hale Waihona Puke 8.2 产生多重共线性的原因
1.经济变量之间具有共同变化的趋势
在多元线性回归模型中往往会产生多重共线性,一般来说由时间序列数据构造的模 型可能性大,其原因可以归纳为以下几个方面: 1.经济变量之间具有共同变化的趋势 经济运行的特点之一就是经济变量在一定时期表现出共同的变化趋势。在例8-1的 解释变量中,国内生产总值、税收总收入、工业增加值的共同的变化趋势非常明显, 我们可以绘制变量的线图来观察其变化,如图8-1所示。
46526.68 61110.96 16.80061 17.09617 16.90747 1.776700
8.1 多重共线性的含义
通过估计结果我们发现,X1、X3、X6的系数为负,说明X1、X3、X6与Y之间是反 向关系,这个结果与我们事先的预计不相符。 此外我们还发现,虽然模型可以通过F检验,说明模型在整体上是可靠的,但在进 行t检验时, 只有X2通过,说明其他变量没有对Y显著的做出解释。 造成这种矛盾结果的原因是模型中存在多重共线性。造成这种矛盾结果的原因是模 型中存在多重共线性。 什么是多重共线性呢?回忆第5章中对多元线性回归模型的古典假定中的无多重共 线性假定:诸X之间不存在线性相关性;用矩阵表示为: Rank(X) k 1 ,即矩 阵X满秩。 而例8-1中的模型中很可能没有满足这个假定,即诸X之间存在线性相关性,即存
在不全为0的 i(i=0,1,2,…k),使得下式成立:
1 X1i 2 X 2i ... k X ki 0
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

( X ' X kI ) X ' Y
1
^
Y 0 1 X1 2 X 2 3 X 3 4 X 4 5 X 5 6 X 6
共线性
Ridge Regression Syntax
岭回归程序路径
INCLUDE 'C:\Users\Administrator\Desktop\Ridge regression.sps'. ridgereg enter=x1 x2 x3 x4 x5 解释变量 被解释变量 /dep=y /inc=0.01.
统计方法
Y 0 1Z1 2 Z2
因子分析
岭回归
岭回归是一种专门用于共线性数据分析的有偏估计 回归方法,它实际上是一种改良的最小二乘法,以放
弃最小二乘的无偏性,损失部分信息,放弃部分精确
度为代价来寻求效果稍差但更符合实际的回归方程。
^
( X ' X ) X 'Y
1
事实上,并没有度量多重共线性的单一方法,这是因为对 于非实验数据,无法确定共线性的性质和程度。
判断存在多重共线性的经验法则:
典型特征
1.R2较高但解释变量t值统计显著的不多;
2.解释变量两两高度相关;
3.检查偏相关系数; 4.方差膨胀因子; 5.条件指数; 6.从属回归或辅助回归。
超过0.8
多解释变量
产生影响。同样地,被解释变量当前的变化也可能受其 自身过去水平的影响,这种被解释变量受到自身或另一 种解释变量的前几期值影响的现象称为滞后效应。
(2)滞后变量模型 以滞后变量作为解释变量的模型即为滞后变量模型。
Yt 0 1Yt 1 2Yt 2 qYt q 0 X t 1 X t 1 s X t s t
都趋于增长或下降。 (2)截面数据 以企业生产函数为例: Y 2. 滞后变量的引入
AK L e
以相对收入假设为例:Ct
3. 样本资料的限制
0 1Yt 2Ct 1 t
在现有数据条件下,特定样本可能存在某种程度的多重共线性。
三、多重共线性的后果
理论后果
只要共线性是不完全的,OLS估计量仍是最优线性无偏估计
分——或许是省略了一些重要变量,或许没有选择正
确的函数形式。
4.参数的先验信息
有些时候,对某一个特定现象需要反复调查,根据先
验研究可以了解有关参数的某些信息,而这些信息适用于 当前样本。
C 0 1 X 2Y 0 1 X 0.75Y C 0.75Y 0 1 X
学习能力
物理水平
语文水平
Y 0 1 X1 2 X 2 3 X 3 4 X 4 5 X 5 6 X 6
数学水平 化学水平 历史水平
政治水平
Z1 a1 X1 a2 X 2 a3 X 3 Z2 b1 X 4 b2 X 5 b3 X 6
估计即可; 3.在众多降低多重共线性的方法中,提倡岭回归或增加样本量或
选取新的样本的方法,不提倡使用主成分分析(逐步回归)等统计方
法,因为这些方法违背了计量经济学模型总体回归模型设定原则。
滞后变量及其模型
1. 滞后变量 某些经济变量不仅受到同期各种因素的影响,而且也 受到过去某些时期的各种因素,甚至自身的过去值影响。
2 j
Y 0 1 X1 2 X 2 3 X 3 4 X 4 5 X 5 6 X 6
变量
X1
R2
0.90
F值
79.20
F 显著性
是***
X2
X3
0.18
0.36
1.93
4.95

是***
X4
X5 X6
0.86
0.09 0.24
54.06
0.87 2.78
是***
否 是**
多重共线性必定不好吗?
1.如果样本中两变量存在共线性,那么对于预测来 说是一件好事! 2.如果研究的目的不仅仅是预测,而且还要可靠地 估计出模型的参数,则严重的共线性是一件“坏事”!
五、多重共线性的补救措施
1.从模型中删掉一个变量
如果多重共线性问题很严重,最简单的解决办法就 是删掉一个或多个共线性变量。 模型设定错误:或许比“疾病”本身更糟糕! 建议不要仅仅因为共线性很严重就从一个经济意义 上可行的模型中删除变量!
7.难以评估各个解释变量对回归平方和或者R2的贡献。
四、多重共线性的诊断
如何诊断多重共线性及其严重程度?
1.多重共线性是一个程度问题而不是存在与否问题;
2.多重共线性针对的是确定性解释变量,因而它是
一个样本特征,而不是总体特征。 鉴于此,我们不是要做“多重共线性的检验”, 而是要度量样本多重共线性的程度。
实际后果
2.置信区间变宽;
2. 近似花线性下参数估计量方差增大
1.OLS估计量的方差和标准误较大;
3.t 值不显著;
3. 参数估计量经济含义不合理
4.R2值较高,但 t 值并不都是统计显著的; 5.OLS估计量及其标准误对数据的微小变化非常敏感,即它们很 不稳定; 6.回归系数符号有误;
4. 变量显著性和模型的预测失去意义
(4)参数的先验信息;
(5)变量变换; (6)差分法等。
2. 主成分分析法 3. 岭回归
主成分分析法
主成分分析的目的就是通过线性变换,将原来的多 个指标组合成相互独立的少数几个能充分反映总体信息 的指标。
其用途就是利用主成分分析提取出主要信息,然
后使用提取出的主成分代替原变量进行分析,就可以避
免原变量的共线性问题。
2.获取额外的数据或新的样本
既然多重共线性是一个样本特征,那么在包括同样 变量的另一个样本中,共线性也许并不太高。
) var( k
x (1 R )
2 k 2
2
方差膨胀:减小参数估计量的方差
关键问题是能否得到另一个样本,毕竟收入数据的成 本或许很高。
3.重新考虑模型
有些时候,用于实证分析的模型考虑得并不充
直觉上这的确是一个好方法,其缺陷在于外生的或先
验的信息并不总是可获得的。
5.变量变换
有些时候,通过对模型中的变量进行变换也能够降低 共线性程度。
名义进口 名义收入
Y 0 1GNP 2 P Y GNP 0 1 P P
实际进口 实际收入
6.差分法
Yi 1X i1 2 X i 2 k X ik i i1
量,即使多元回归方程的一个或多个偏回归系数是统计不显著的。
1.在近似共线性的情形下,OLS估计仍是无偏的; 2.近似共线性并未破坏OLS估计量的最小方差性;
3.即使在总体回归方程中变量X之间不是线性相关的,但在
某个样本中,X变量之间可能线性相关。
多重共线性本质上是一个样本(回归)现象。
1. 完全花线性下参数估计量不存在
分布滞后模型:仅有解释变量的当期值及其若干期的滞后值。
Yt i X t i t
i 0 s
自回归模型:解释变量仅包含X的当期值与被解释Y的滞后值。
Yt 0 1 X t iYt i t
i 1
q
c1 X i1 c2 X i 2 ck X ik vi 0
两个或多个解释变量之间近似线性相关,但不是完全共
线性,这就是近似、或这完全、或高度多重共线性。
二、多重共线性产生的原因
1. 经济变量相关的共同趋势 (1)时间序列数据
经济繁荣期或衰退期,各基本经济变量,如收入、消费、投资等,
通常把这种过去时期的具有滞后作用的变量叫做滞后
变量(Lagged Variable)。
Ct 0 1Yt 2Yt 1 3Ct 1 t
2. 滞后变量模型 (1)滞后效应 一般说来,被解释变量与解释变量的因果关系不一 定就在瞬时发生,可能存在时间的滞后,或者说解释变
量的变化可能需要经过一段时间才能完全对被解释变量
K的步长
降低多重共线性的总结
1.多重共线性是一个样本问题,任何一个样本都有多重共线性问 题,只是程度不同而已,所有降低多重共线性的方法都只是在减少这 一问题的程度; 2.多重共线性主要的灾害是增加了估计量的方差,进而带来无法 估计、解释失真、预测无效等一系列问题。所有降低多重共线性的方
法的处置原则是保证样本的多重共线性问题不至于影响到模型的计量
辅助回归(判定系数检验法)
基本原理: 使模型中每个解释变量分别以其余解释变量为解
释变量进行回归计算,并计算相应的拟合优度。如果
在某一形式中判定系数较大,则说明在该形式中作为 被解释变量的 Xj 可以用其他解释变量的线性组合代 替,即 Xj 与其他解释变量之间存在共线性。
Fj
R /k (1 R 2 j ) / ( n k 1)
一般而言,增量之间的线性关系远比总量之间的 线性关系弱一些。
多重共线性是一个样本特征,其重要“灾 害”表现在估计量的方差增大,进而引发多种 问题。 降低多重共线性程度,最主要的努力方向
是降低估计量的方差。

降低多重共线性方法:
1. 实践归纳的方法
(1)从模型中删除一个变量; (2)获取额外的数据或新的样本; (3)设计新的模型;
如果某两个或多个解释变量之间出现相关性,
则称为存在多重共线性(Multicollinearity)。
一、多重共线性的程度
完全共线性
c1 X i1 c2 X i 2 ck X ik 0
变量之间完全线性相关,即完全共线性或多重共线性。
当解释变量之间完全线性相关或完全多重共线性时,不 可能获得所有参数的唯一估计值,因而也就不能根据样本进 行任何统计推断(即假设检验)。 近似共线性
相关文档
最新文档