第八章(多重共线性)

合集下载

多重共线性PPT课件

协方差同理。
方差膨胀因子(variance-inflating factor, VIF)
1 VIF 1 r223
所以 var b2
2
x22i VIF
2-21
8.5 多重共线性的诊断
在任一给定的情况下，特别是在涉及多于两个解释变量的模型中，我们怎么知道有没有共线性？
2-22
1.多重共线性是一个程度问题而不是有无问题。有意义的区分不在于有无之间，而在于程度大小。
因为数。
b2 b3 是一个方程，却有两个未知
对给定的alpha和lamda值，有无穷多个解。
2-15
出现“高度”但“不完全”多重共线性时的估计问题
仍以上述三变量回归模型为例。假定 X3i X 2i vi ，其中 vi x2i 0
回归系数估计：
b2
yi x2i 2 x22i vi2
yi x2i
第8章多重共线性：解释变量
相关会有什么后果？
McGraw-Hill/Irwin
Copyright © 2006 The McGraw-Hill Companies, Inc. All rights reserved.
问题
多重共线性的性质是什么？多重共线性是否是一个严重的问题？多重共线性的理论后果是什么？多重共线性的实际后果是什么？实践中如何诊断多重共线性？消除多重共线性的补救措施有哪些？
但在应用计量经济学中，我们的宗旨就是区分每个变量的单独影响。
2-13
把 X3i yi
X 2i 代入回归方程： b2 x2i b3 x2i ei b2 b3 x2i ei
x2i ei
利用OLS公式得：
b2 b3
x2i yi x22i

多重共线性的检验方法

多重共线性的检验方法
多重共线性（multicollinearity）是指在回归模型中，自变量之间存在高度相关或线性相关的情况。

由于存在多重共线性，导致模型的解释能力降低，预测结果不可靠。

因此，需要对回归模型中自变量之间的关系进行检验和分析。

下面介绍几种多重共线性的检验方法。

1. 相关系数矩阵法。

计算自变量之间的相关系数矩阵，判断是否存在较高的相关系数。

相关系数矩阵主要分为Pearson 相关系数和Spearman 相关系数，其中Pearson 相关系数适用于连续变量之间的关系，Spearman 相关系数适用于序数类或等距类别的变量之间的关系。

2. 变量膨胀因子（VIF）法。

VIF 是判断某个自变量对其他自变量的回归系数影响的程度。

如果某个自变量的VIF 值超过10，就表示需要对其进行检验和分析。

3. 特征值检验法。

通过计算相关系数矩阵的特征值和特征向量，判断模型是否存在多重共线性。

如果某个特征值较小，就表示存在多重共线性。

4. 条件数检验法。

条件数是相邻特征值之比的平方根。

如果条件数大于30，就表示模型存在多重共线性。

综上所述，多重共线性的检验方法有多种，不同的检验方法可以互相验证，得到更加准确的判断结果。

在实际应用中，可以根据具体情况选择合适的方法进行多重共线性的检验。

多重共线性

多重共线性多重共线性（multicollinearity ）的特征● 多重共线性是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系：0...2211=+++k k X X X λλλ其中k λλλ,...,,21为常数，但不同时为零。

● 0...2211≈+++k k X X X λλλ，近似的多重共线性● 通过巴伦坦图做简单的描述。

共线性部分可用两圆圈的重叠部分来衡量。

重叠部分越大，共线性程度越高。

● 我们定义的多重共线性仅对X 变量之间的线性关系而言，它们之间的非线性关系并不违反无多重共线性的假设i i i i u X X Y +++=2210βββ多重共线性的后果●如果多重共线性是完全的，诸X变量的回归系数将是不正确的，并且它们的标准误差为无穷大●如果多重共线性是不完全的，那末，虽然回归系数可以确定，却有较大的标准误差，意思是，系数不能以很高的精确或准精确加以估计，这会导致：-参数估计不精确，也不稳定-参数估计量的标准差较大，影响系数的显著性检验●多重共线性产生的后果具有一定的不确定性●在近似的多重共线性的情况下，只要模型满足CLRM 假定，回归系数就为ＢＬＵＥ，但特定的样本估计量并不一定等于真值。

多重共线性的来源（1）许多经济变量在时间上由共同变动的趋势，如：收入，投资，消费（2）把一些经济变量的滞后值也作为解释变量在模型中使用，而解释变量和滞后变量通常相关，如：消费和过去的收入多重共线性一般与时间序列有关，但在横截面数据中也经常出现多重共线性的检验● 多重共线性是普遍存在的，造成的后果也比较复杂，对多重共线性的检验缺少统一的准则－对有两个解释变量的模型，作散点图，或相关系数，或拟和优度Ｒ平方。

－对有多个解释变量的模型，分别用一个解释变量对其它解释变量进行线性回归，计算拟和优度22221,...,,k R R R－考察参数估计值的符号，符不符合理论－增加或减少解释变量，考察参数估计值的变化－对比拟和优度和ｔ检验值多重共线性的修正方法● 增加样本观测值，如果多重共线性是由样本引起的，可以通过收集更多的观测值增加样本容量。

第八章多重共线性PPT学习教案

第13页/共38页
完全多重共线性是由于在模型设定时把严格联系的变量引进同一个模型，或者是由于虚拟变量设置不当引起的。
因此对完全共线性的处理比较简单，只需要针对性的修改模型，放弃和调整引起完全共线性的部分变量即可。注意，不能放弃形成线性关系的所有解释变量，否则造成解释变量缺落，使模型失去研究意义。
第17页/共38页
三、多重共线性的诊断
（一）多重共线性问题的诊断原则：
❖ 多重共线性是一个样本问题，即使在总体中诸 X变量没有逻辑和理论上的线性关系，但在具
体的样本仍可能有线性关系。
❖ 多重共线性的根源是解释变量之间的样本相关性，因此分析解释变量之间的样本相关性，进行单相关或多元相关性的分析检验，是发现和判断多重共线性问题的基本方法
数据样本时期1978年-2003年（资料来源：《中国统计年鉴
2004》，中国统计出版社2004年版）
第1页/共38页
财政收入模型的EViews估计结果
Variable 农业增加值NZ 工业增加值GZ 建筑业增加值JZZ 总人口TPOP 最终消费CUM 受灾面积SZM
截距项 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat
性（approximate multicollinearity）或交互相关 (intercorrelated)。
第6页/共38页
注意：
完全共线性的情况并不多见，一般出现的是在一定程度上的共线性，即近似共线性。
但无论是解释变量之间严格的线性关系还是较严重的近似线性关系，都会给多元线性回归分析造成严重的不利影响，甚至导致回归模型完全失效。

第二单元统计学高级篇

逐步回归法实例（第一步）
模型 Y与X4 Y与X1 Y与X2 Y与X3
SS回
SS残
SS总
82.7144 139.8375 222.5519 69.4251 153.1267 222.5519 46.7873 175.7645 222.5519 57.9133 164.6386 222.5519
逐步回归法实例（第二步）

二、多重线性回归模型与方程
多重线性回归模型用于研究一个被解释变量（因变量）与多个解释变量（自变量）的线性关系分析。多重线性回归模型与一元线性回归模型基本类似，只不过解释变量由一个增加到两个以上，被解释变量y与多个解释变量x1,x2·· ·xk之间存在线性关系。假定被解释变量y与多个解释变量x1,x2· xm之间具有线性 · · 关系，建立多重线性回归模型为：
S
1.5934 2.5748 3.6706 1.8234 2.9257
第三节自变量的选择（筛选）

多重线性回归分析中，常常通过专业知识或实践经验，去挑选那些对因变量影响较大的自变量与因变量Y建立回归方程。如从为数众多因素中，选择的自变量对反应变量无影响或影响甚微，把它们引入方程后，不但计算量大，信息成本高，而且会使回归系数的估计和预测的精度降低。选择对因变量影响较大的自变量引入方程，将对反应变量无影响或影响甚微的自变量排除方程，这种统计方法称为自变量选择（筛选），统计中常用方法之一是逐步选择法。
SY,1,2,
与R2 …M
3.校正决定系数RC2(Radj2)=0.5282
R2与RC2关系：

R2表示总变差中已由多元回归方程“解释”的比例，R2可解释模型的拟合优度，残差平方和越小，决定系数越接近1，回归方程的拟合程度越好。 RC2当给模型增加自变量时，决定系数也随之逐步增大，然而决定系数的增大代价是自由度的减少。自由度小意味着估计和预测的可靠性低。为了克服样本决定系数的这一缺点，我们设法把R2给予适当的修正，这就是校正决定系数。 R2或RC2只能说明在给定的样本条件下回归方程与样本观测值拟合优度，并不能做出对总体模型的推测，因此不能单凭它们来选择模型。

8第八章：多重共线性及其改进方法

( X ' X kI ) X ' Y
1
^
Y 0 1 X1 2 X 2 3 X 3 4 X 4 5 X 5 6 X 6
共线性
Ridge Regression Syntax
岭回归程序路径
INCLUDE 'C:\Users\Administrator\Desktop\Ridge regression.sps'. ridgereg enter=x1 x2 x3 x4 x5 解释变量被解释变量 /dep=y /inc=0.01.
统计方法
Y 0 1Z1 2 Z2
因子分析
岭回归
岭回归是一种专门用于共线性数据分析的有偏估计回归方法，它实际上是一种改良的最小二乘法，以放
弃最小二乘的无偏性，损失部分信息，放弃部分精确
度为代价来寻求效果稍差但更符合实际的回归方程。
^
( X ' X ) X 'Y
1
事实上，并没有度量多重共线性的单一方法，这是因为对于非实验数据，无法确定共线性的性质和程度。
判断存在多重共线性的经验法则：
典型特征
1.R2较高但解释变量t值统计显著的不多；
2.解释变量两两高度相关；
3.检查偏相关系数； 4.方差膨胀因子； 5.条件指数； 6.从属回归或辅助回归。
超过0.8
多解释变量
产生影响。同样地，被解释变量当前的变化也可能受其自身过去水平的影响，这种被解释变量受到自身或另一种解释变量的前几期值影响的现象称为滞后效应。
（2）滞后变量模型以滞后变量作为解释变量的模型即为滞后变量模型。
Yt 0 1Yt 1 2Yt 2 qYt q 0 X t 1 X t 1 s X t s t

多重共线性(统计累赘)的概念、特征及其测量方式和处理方式

试述多重共线性（统计累赘）的概念、特征及其测量方式和处理方式。

1、概念多重共线性是指自变量之间存在线性相关关。

倘若其中两个自变项的关系特别强，则在相互控制后就会使每者的效果减弱，而其他的变相的效果就会因此而增大。

2、特征3、产生原因产生多重相关性的原因主要包括四方面。

一是没有足够多的样本数据; 二是选取的自变量之间客观上就有共线性的关系; 还可能由其它因素导致, 如数据采集所用的方法, 模型设定, 一个过度决定的模型等。

但多数研究者认为共线性本质上是由于样本数据不足引起的。

4、测量方式（1）经验式的诊断方法通过观察,得到一些多重相关性严重存在的迹象。

①在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。

②回归系数的代数符号与专业知识或一般经验相反;或者该自变量与因变量的简单相关系数符号相反。

③对重要自变量的回归系数进行t 检验,其结果不显著。

特别是当F 检验能在高精度下通过,测定系数R 2的值也很大,但自变量的t 检验却全都不显著,这时多重相关性的可能将会很大。

④如果增加或删除一个变量,或者增加或删除一个观测值,回归系数发生了明显的变化。

⑤重要自变量的回归系数置信区别明显过大。

⑥在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。

⑦对于一般的观测数据,如果样本点的个数过少,比如接近于变量的个数或者少于变量的个数,样本数据中的多重相关性就会经常存在。

（2）统计检验方法共线性的诊断方法是基于对自变量的观测数据构成的矩阵X ’X 进行分析,使用各种反映自变量间相关性的指标。

共线性诊断常用的统计量有方差膨胀因子VIF 或容限TOL 、条件指数和方差比例等。

方差膨胀因子VIF 是指回归系数的估计量由于自变量的共线性使其方差增加的一个相对度量。

对于第i 个回归系数,它的方差膨胀因子定义为：VIF=1/1-R 2=1/TOL i 其中R2i 是自变量Xi 对模型中其余自变量线性回归模型的R 平方。

8第八章多重共线性：解释变量相关会有什么后果

H0 : B4 B5 0
作业做在书上：8.1~8.12；自行思考、上机操作：8.14~8.18、
P95：4.18
Variable C GPA GMAT EMPGRAD TUITION RECRUITER R-squared Adjusted Rsquared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat
418通常物流需求是指一定时期内社会经济活动对生产流通消费领域的原材料成品和半成品商品以及废旧物品废旧材料等的配置作用而产生的对物品在空间时间作业量和费用方面的要求涉及运输库存包装装卸搬运流通加工以及与之相关的信息需求等物流活动的诸方面
第二部分
实践中的回归分析
基本假定违背：不满足基本假定的情况。
（1）模型设定有偏误；所选模型是正确设定的基本假定所选模型是正确设定的
5、OLS估计量及其标准误对数据的微小变化非常敏感。 6、回归系数的符号有误。不能通过经济意义的检验。 7、难以评估各个解释变量对ESS或R2的贡献。
5、OLS估计量及其标准误对数据的微小变化非常敏感。
7、难以评估各个解释变量对ESS或R2的贡献。
补充：产生多重共线性的主要原因（了解）
（1）经济变量相关的共同趋势
Y：饰品需求 X2：价格 X3：消费者收入 X4：消费者工资
Yi A1 A2 X 2i A3 X 3i ui Yi B1 B2 X 2i B4 X 4i ui
Yi A1 A2 X 2i A3 X 3i ui X 3i 300 2 X 2i ; R2 1
Rj•2:第j个解释变量对其他解释变量的回归方程的判定系数

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第八章
多重共线性
一、多重共线性及其产生原因定义：对于多元线性回归模型：
01122...i i i k ki i y x x x u ββββ=+++++
如果模型的解释变量之间存在着较强的线性相关关系，或者说，存在一组不全为零的常数12,,....,k λλλ，使得： 1122...0i i k ki i x x x v λλλ+++=，i v 是随机误差项。

则称模型存在着多重．．共线性，如果0i v =，则称存在完全的多重共线性。

?直观地看，多重共线性是不是造成了冗余变量，这里的冗余的含义是什么？思考：只有一个解释变量会出现多重共线性吗？
产生原因：
1．经济变量的内在联系，这是根本原因，这导致多重共线性无法克服。

2．经济变量变化趋势的“共向性”。

3．解释变量中含有滞后变量。

二、多重共线性的影响
古典回归模型要求模型不存在完全的多重共线性。

所以，即使存在严重的多重共线性，OLS 估计仍然是最佳线性无偏估计（BLUE ）。

但会产生以下问题：
（一）增大OLS 估计的方差设模型为二元线性，
01122i i i i y x x u βββ=+++
可以证明，
2
12
21112
1
()()1i
D x
x r σβ=
∙
--∑
VIF 被称为方差膨胀因子。

分别计算12r 分别等于0，0.5，0.9时的方差膨胀因子。

？方差变得过大，有什么不好？？
（二）难以区分每个解释变量的独立影响对于多元线性回归模型，回归系数为
i i
y
x β∂=
∂，根据偏导数的概念，i β的经济含义是什么？
（三） T 检验的可靠性降低
可能使T 检验失效，原来显著的T 值变成不显著的，从而将有重要影响的变量剔除出模型。

思考：比较一下和模型存在异方差及自相关时对T 检验的影响有何不同？
（四）回归模型缺乏稳定性
参数估计值对样本的变化比较敏感，这实际上也是OLS 估计方差较大的另一个表现。

例子来说明：见表一
如果改成：
再重新进行回归，看会发生什么情况？
一个理念：多重共线性不可避免。

三、多重共线性的检验
外在症兆：R-平方很高，但只有极个别或少数几个解释变量前的系数显著（T 值偏小）。

1．相关系数检验
利用相关系数可以分析解释变量之间的两两相关情况。

例：服装需求函数。

根据理论和经验分析，影响居民服装需求的主要因素有：可支配收入X ，流动资产拥有量K ，服装类价格指数P1和总物价指数P0。

下表给出了有关统计资料。

表服装需求函数有关统计资料
2．方差膨胀因子检验（辅助方程） VIF 大于10时，或者是容许度。

仍以上例为例。

四、多重共线性的解决方法
明确两点
1 如果建立模型的目的是为了预测，只要模型的拟合优度较高，可以忽略多重共线性的问题；但是，如果目的是进行结构分析或政策评价，即利用系数分析，比较各个解释变量的单独影响，则需要消除多重共线性的影响。

2 引起多重共线性的原因是模型中存在相关的解释变量，消除多重共线性的根本方法只能是从模型中剔除这些变量。

但直接剔除变量可能会带来以下问题：模型的经济意义不合理，可能会使模型出现异方差性或自相关性。

可以考虑增加样本容量。

（一）直接剔除次要或可替代的变量（二）间接剔除重要的解释变量 1．利用附加信息
以规模报酬不变的C-D 生产函数为例。

以工业能源需求函数为例。

01122y x x βββε=+++ 2．变换模型的形式如投资函数，
0121t t t t I Y Y u βββ-=+++
可以变换成： 0121
t t t t I Y Y u
βββ-=++∆+ 又比如，需求函数是：012031Q Y P P u ββββ=++++ 为了反映自价格与互价格对需求量的影响，将需求函数设成：
0121
(
)P Q Y u P βββ=+++
3．综合使用时序数据与横截面数据
如果能同时获得变量的时序数据和横截面数据，则先利用某类数据估计出模型中的部分参数，再利用另一类数据估计模型的其余参数。

例如，
设某类商品的需求函数为，
012ln ln ln y x p u βββ=+++，其中，时序数据中X 与P 高度相关。

为此，
（1）收集最近一年该商品的销售量和居民收入的统计资料，将需求函数取成： 01ln ln y a a x u =++，可以得到需求的收入弹性1a 。

（2）将原模型变换成：
01ln t t t y P u ββ*=++，其中，1ln ln t t t y y a x *
=-
，可以用时序数据估计模型，得
到0β 和1β
，从而在消除多重共线性的情况下，估计出了各参数值。

（四）逐步回归具体步骤为：
1．利用相关系数从所有解释变量中选取相关性最强的变量建立一元回归模型。

2．在一元回归模型中分别引入第二个变量，共建立K-1个二元回归模型，从这些模型
中再选取一个较优的模型。

选择时要求：模型中每个解释变量影响显著，参数符号正确，调整后的R-平方有所提高或下降极小。

3．在选取的二元回归模型中以同样方式引入第三个变量，如此下去，直至无法引入新
的变量时为止。

以上例来说明逐步回归的过程。

作业：
1．古典回归模型是否要求模型不存在多重共线性？多重共线性是否会影响OLS 估计的无
偏性和有效性？具体产生哪些不利影响？
2．试述产生多重共线性的原因和解决多重共线性的基本思路。

3．建立生产函数
Y AL K αβ=时，
（1）若K ，L 高度相关，用OLS 方法估计模型时会出现什么问题？
（2）若已知该生产过程的规模报酬不变（即1αβ+=），应该如何估计模型？写出具体步骤。

4．表3是1978——1997年我国钢材产量Y （万吨）、生铁产量X1（万吨），发电量X2（亿
千瓦小时），固定资产投资X3（亿元），国内生产总值X4（亿元），铁路运输量X5（万吨）的统计资料。

（1）计算各个变量之间的相关系数，分析多重共线性的可能类型。

（2）根据逐步回归原理，建立我国钢产量预测模型。