第5章多重共线性
多重共线性

解决方法
解决方法
(1)排除引起共线性的变量 找出引起多重共线性的解释变量,将它排除出去,以逐步回归法得到最广泛的应用。 (2)差分法 时间序列数据、线性模型:将原模型变换为差分模型。 (3)减小参数估计量的方差:岭回归法(Ridge Regression)。 (4)简单相关系数检验法
谢谢观看
简介
简介
对线性回归模型 基本假设之一是自变量,之间不存在严格的线性关系。如不然,则会对回归参数估计带来严重影响。为了说 明这一点,首先来计算线性回归模型参数的 LS估计的均方误差。为此。重写线性回归模型的矩阵形式为 其中服从多元正态分布,设计矩阵 X是的,且秩为 p。这时,参数的 LS估计为,而回归系数的 LS估计为。 注意到由此获得的 LS估计是无偏的,于是估计的均方误差为 其中是的特征根。显然,如果至少有一个特征根非常接近于零,则就很大,也就不再是的一个好的估计。由 线性代数的理论知道,若矩阵的某个特质根接近零,就意味着矩阵 X的列向量之间存在近似线性关系。 如果存在一组不全为零的数,使得 则称线性回归模型存在完全共线性;如果还存在随机误差 v,满足,使得 则称线性回归模型存在非完全共线性。 如果线性回归模型存在完全共线性,则回归系数的 LS估计不存在,因此,在线性回归分析中所谈的共线性 主要是非完全共线性,也称为复共线性。判断复共线性及其严重程度的方法主要有特征分析法(analysis of eigenvalue),条件数法 (conditional numbers)和方差扩大因子法(variance inflation factor)。
产生原因
产生原因
主要有3个方面: (1)经济变量相关的共同趋势 (2)滞后变量的引入 (3)样本资料的限制
影响
影响
第五章 多重共线性(计量经济学,南开大学)

例如,为了估计汽车需求的价格弹性和收入弹性,得到销售量、平均价格、消 费者收入的时间序列数据。设定回归式:
ln(Yt ) 1 2 ln P t 3 ln I t ut
由于在时间序列数据中价格Pt、收入It 一般都具有高度共线的趋势。因此,直接 估计上面的回归式将存在问题。由于在同一式点上,价格与收入的相关程度不高, 可以先利用截面数据估计出收入弹性 ,再利用这一估计结果修改原回归式,变 ˆ 为: 3
R 2 /(k 1) F ~ F (k 1, n k ) 2 (1 R ) /(n k )
可以采用类似的方法检验:
F
R2 ) j /( k 1 (1 R j ) /(n k 1)
2
~ F (k 1, n k )
选择显著水平α ,计算F 统计量的值,与F分布表中的临界值进行比较,若F检验值 小于临界值,则多重共线性不显著,反之,则多重共线性显著。
第三节 多重共线性的探查和解决
一、多重共线性的探查 由于多重共线性使一种普遍现象,而多重共线性的程度影响了参数估计结果, 因此我们关心的是共线性的程度,而不是共线性是否存在。
在双边量回归模型中,可以直接对解释变量的相关系数进行显著性检验,以确 定线性相关的程度(此时相关系数的平方等于样本决定系数)。而对于多于两个结 束变量的回归模型,则不能利用俩俩相关系数来检验。 对于有多个变量的回归模型,可以采用辅助回归的方法,分别以k-1个解释变量 中的第i个对其他变量进行回归,可得到k-2个回归方程的判定系数: R22,R32,…,Rk2。假定这些判定系数中Rj2最大且接近1,则变量Xj 与其他解释变量 中的一个或多个有较高相关程度,因此回归方程出现高度多重共线性。 可以进行F 检验确定其显著性: 根据第三章的结果,检验R2显著性的F检验值为:
计量经济学第五章

Variables-Likelihood Ratio • 出现对话框时,写入删除变量名--OK • 对比删除前后的AIC与SC信息值,信息
值小的结论是应采纳的。
9
用Eviews的误设定检验3
• 第一,估计出简单(单纯)方程 • 第二,在命令窗口上写入genr v_hat=resid 或者 Procs/Generate Series中 v_hat=resid 发现 v_hat • 第三,估计出新的回归方程
无约束模型(U)
有约束模型(K) (general to simple)
计算统计量F
F=(RSSK-RSSu)/J RSSu/(n-k-1)
~F(J, n-k)
J 为表示约束条件数, K 为表示自变量数 或者 应估计的参数数, n 为表示样本数(obs)
4
2. LM检验(Lagrange Multiplier
多重共线性多出现在横截面资料上。
16
三、异方差性的检验及对策
Var(ℇi)≠Var(ℇj) (i≠j)时, ℇi中存在异方差性(Herteroskedasticity)。 即随机项中包含着对因变量的影响因素。 异方差性多发生在横截面资料上。
17
异方差性的检验
1.图示检验法 如模型为Yi=0+1X1i+2X2i+…+ℇi 时,
7
用Eviews的误设定检验1
• 首先估计出简单(单纯)方程 • View/Coefficient Tests/Omitted
Variables-Likelihood Ratio • 出现对话框时,写入新变量名 OK • 检验结果出现在上端,如果P值很小时, 拒
什么是多重共线性如何进行多重共线性的检验

什么是多重共线性如何进行多重共线性的检验多重共线性是指在统计模型中,独立变量之间存在高度相关性或者线性依赖关系,从而给模型的解释和结果带来不确定性。
在回归分析中,多重共线性可能导致系数估计不准确、标准误差过大、模型的解释变得复杂等问题。
因此,对于多重共线性的检验和处理是非常重要的。
一、多重共线性的检验多重共线性的检验可以通过以下几种方式进行:1. 相关系数矩阵:可以通过计算独立变量之间的相关系数,判断它们之间的关系强度。
当相关系数超过0.8或-0.8时,可以视为存在高度相关性,即可能存在多重共线性问题。
2. 方差扩大因子(VIF):VIF是用来检验自变量之间是否存在共线性的指标。
计算每一个自变量的VIF值,当VIF值大于10或者更高时,可以视为存在多重共线性。
3. 条件数(Condition index):条件数也是一种用来检验多重共线性的指标。
它度量了回归矩阵的奇异性或者相对不稳定性。
当条件数超过30时,可以视为存在多重共线性。
4. 特征值(Eigenvalues):通过计算特征值,可以判断回归矩阵的奇异性。
如果存在特征值接近于零的情况,可能存在多重共线性。
以上是常用的多重共线性检验方法,可以根据实际情况选择合适的方法进行检验。
二、多重共线性的处理在检测到存在多重共线性问题后,可以采取以下几种方式进行处理:1. 去除相关性强的变量:在存在高度相关变量的情况下,可以选择去除其中一个或多个相关性较强的变量。
2. 聚合相关变量:将相关性强的变量进行加权平均,得到一个新的变量来替代原来的变量。
3. 主成分分析(PCA):主成分分析是一种降维技术,可以将相关性强的多个变量合并成为一个或多个无关的主成分。
4. 岭回归(Ridge Regression):岭回归是一种缓解多重共线性的方法,通过加入一个正则化项,来使得共线性变量的系数估计更加稳定。
5. Lasso回归(Lasso Regression):Lasso回归也是一种缓解多重共线性的方法,通过对系数进行稀疏化,来选择重要的变量。
Eviews数据统计与分析教程5章 基本回归模型的OLS估计-普通最小二乘法

EViews统计分析基础教程
五、 线性回归模型的检验
3.异方差性检验
(2)怀特(White)检验法 检验步骤: 用OLS(最小二乘法)估计回归方程,得到残差e。 作辅助回归模型: 求辅助回归模型的拟合优度R2的值。 White检验的统计量服从χ2分布,即 N·R 2 ~χ2 (k) 其中,N为样本容量,k为自由度,k等于辅助回归模型() 中解释变量的个数。如果χ2值大于给点显著性水平下对应 的临界值,则可以拒绝原假设,即存在异方差;反之,接 受原假设,即不存在异方差。
EViews统计分析基础教程
二、一元线性回归模型
2.实际值、拟合值和残差
估计方程为
表示的是yt的拟合值, 和 分别是 0 和1的估计量。 实际值指的是回归模型中被解释变量(因变量)y的原始观 测数据。拟合值就是通过回归模型计算出来的yt的预测值。
EViews统计分析基础教程
二、一元线性回归模型
EViews统计分析基础教程
五、 线性回归模型的检验
1.拟合优度检验
总体平方和( TSS )反映了样本观测值总体离差的 大小,也被称为离差平方和;残差平方( RSS )说 明的是样本观测值与估计值偏离的程度,反映了因 变量总的波动中未被回归模型所解释的部分;回归 平方和( ESS )反映了拟合值总体离差大小,这个 拟合值是根据模型解释变量算出来的。
EViews统计分析基础教程
三、 多元线性回归模型
在多元线性回归模型中,要求解释变量x1,x2,…,xk之 间互不相关,即该模型不存在多重共线性问题。如果有 两个变量完全相关,就出现了完全多重共线性,这时参 数是不可识别的,模型无法估计。
EViews统计分析基础教程
三、 多元线性回归模型
第五 多重共线性(共54张PPT)

▪ 但是应注意:
▪ 如果研究的目的仅在于预测被解释变量Y,而各个解释变量X之间的 多重共线性关系的性质在未来将继续保持,这时虽然无法精确估计 个别的回归系数,但可估计这些系数的某些线性组合,因此多重共 线性可能并不是严重问题。
第三节 多重共线性的检验
多重共线性检验的任务是:
1)检验多重共线性是否存在;
4、变量的显著性检验失去意义
存在多重共线性时
参数估计值的方差与标准差变大
容易使通过样本计算的t值小于临界值, 误导作出参数为0的推断
可能将重要的解释变量排除在模型之外
5、模型的预测功能失效
▪ 变大的方差容易使区间预测的“区间”变大,使预测
失去意义。
▪其次,由于参数估计量的方差变大,因而对样本值的 反映十分敏感,即当样本观测值稍有变化时,模型参数 就有很大差异,致使模型难以应用。
2)估计多重共线性的范围,即判断哪些变量之间存在
共线性。
一、 检验多重共线性是否存在
1.简单相关系数检验法
利用解释变量之间的线性相关程度去判断是否存在严重多重 共线性的一种简便方法。
一般而言,如果每两个解释变量的简单相关系数比较高,如 大于0.8,则可认为存在着较严重的多重共线性。
注意 较高的简单相关系数只是多重共线性存在的充分条件, 而不是必要条件。特别是在多于两个解释变量的回归模型中, 有时较低的简单相关系数也可能存在多重共线性。因此并不 能简单地依据相关系数进行多重共线性的准确判断。
如果拟合优度变化显著,则说明新引入的变量是一个独立的解释 变量;
如果拟合优度变化很不显著,则说明新引入的变量不是一个独立 的解释变量,它可以用其他变量的线性组合代替,也就是说它与其 他变量之间存在多重共线性。
多重共线性(统计累赘)的概念、特征及其测量方式和处理方式

试述多重共线性(统计累赘)的概念、特征及其测量方式和处理方式。
1、概念多重共线性是指自变量之间存在线性相关关。
倘若其中两个自变项的关系特别强,则在相互控制后就会使每者的效果减弱,而其他的变相的效果就会因此而增大。
2、特征3、产生原因产生多重相关性的原因主要包括四方面。
一是没有足够多的样本数据; 二是选取的自变量之间客观上就有共线性的关系; 还可能由其它因素导致, 如数据采集所用的方法, 模型设定, 一个过度决定的模型等。
但多数研究者认为共线性本质上是由于样本数据不足引起的。
4、测量方式(1)经验式的诊断方法通过观察,得到一些多重相关性严重存在的迹象。
①在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。
②回归系数的代数符号与专业知识或一般经验相反;或者该自变量与因变量的简单相关系数符号相反。
③对重要自变量的回归系数进行t 检验,其结果不显著。
特别是当F 检验能在高精度下通过,测定系数R 2的值也很大,但自变量的t 检验却全都不显著,这时多重相关性的可能将会很大。
④如果增加或删除一个变量,或者增加或删除一个观测值,回归系数发生了明显的变化。
⑤重要自变量的回归系数置信区别明显过大。
⑥在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。
⑦对于一般的观测数据,如果样本点的个数过少,比如接近于变量的个数或者少于变量的个数,样本数据中的多重相关性就会经常存在。
(2)统计检验方法共线性的诊断方法是基于对自变量的观测数据构成的矩阵X ’X 进行分析,使用各种反映自变量间相关性的指标。
共线性诊断常用的统计量有方差膨胀因子VIF 或容限TOL 、条件指数和方差比例等。
方差膨胀因子VIF 是指回归系数的估计量由于自变量的共线性使其方差增加的一个相对度量。
对于第i 个回归系数,它的方差膨胀因子定义为:VIF=1/1-R 2=1/TOL i 其中R2i 是自变量Xi 对模型中其余自变量线性回归模型的R 平方。
第5章习题(共线性)

第5章 多重共线性1、所谓不完全多重共线性是指存在不全为零的数kλλλ,,,21 ,有( )是随机误差项式中v e v x x x .D e v x x x .C x x x .B v x x x .A k x x k k xk k k k k k ⎰∑=++++=++++=+++=++++ 122112212211221100λλλλλλλλλλλλ2、设21,x x 为解释变量,则完全多重共线性是( ).(021.0.021.22121121=+=++==+x x ex D v v x x C ex B x x A 为随机误差项)3.设线性回归模型为ii i i u x x y +++=33221βββ,下列表明变量之间具有完全多重共线性的是( )(其中v 为随机误差项)000.0000.0020.0020.321321321321=+*+*+*=*+*+*=+*++*=*++*v x x x D x x x C v x x x B x x x A4.设线性回归模型为ii i i u x x y +++=33221βββ,下列表明变量之间具有不完全多重共线性的是( )(其中v 为随机误差项)000.0000.0020.0020.321321321321=+*+*+*=*+*+*=+*++*=*++*v x x x D x x x C v x x x B x x x A5.如果模型中的解释变量存在完全的多重共线性,参数的最小二乘估计量是( )A .无偏的 B. 有偏的 C. 不确定 D. 确定的 6.下列说法不正确的是( )A.多重共线性产生的原因有模型中大量采用滞后变量B.多重共线性是样本现象C.检验多重共线性的方法有DW 检验法D.修正多重共线性的方法有增加样本容量7.在线性回归模型中,若解释变量1x 和2x 的观测值成比例,即有i2i 1kxx =,其中k 为非零常数,则表明模型中存在( )A. 异方差B. 多重共线性C. 序列自相关D. 设定误差 8.多重共线性是一种( )A .样本现象 B.随机误差现象 C .被解释变量现象 D.总体现象 9.逐步回归法既检验又修正了( )A .异方差性 B.自相关性 C .随机解释变量 D.多重共线性 二、多项选择1、设线性回归模型为ii i i u x x y +++=33221βββ,下列表明变量之间具有多重共线性的是( )(其中v 为随机误差项)31.031.0000.0000.0020.0020.3232321321321321=++=+=+*+*+*=*+*+*=+*++*=*++*v x x F x x E v x x x D x x x C v x x x B x x x A2.下列说法正确的是( )A. 多重共线性分为完全和不完全B. 多重共线性是一种样本现象C. 在共线性程度不严重的时候可进行预测分析D. 多重共线性的存在是难以避免的 3.能够检验多重共线性的方法有( )A.简单相关系数矩阵法B. DW 检验法C. 逐步回归法D.ARCH 检验法E.辅助回归法(又待定系数法)F. t 检验与F 检验综合判断法 4.能够修正多重共线性的方法有( )A.增加样本容量B. 数据的结合C.变换模型的函数形式D.逐步回归法E.差分模型 三、判断(见习题集)四、计算分析:在研究生产函数时,得到如下两个模型估计式:(1)LnL LnK Q Ln 893.0887.004.5ˆ++-=se=(1.40)(0.087)(0.137)21,878.02==n R(2)LnL LnK t QLn 285.1460.00272.057.8ˆ+++-=se=(2.99)(0.0204)(0.333)(0.324)21,889.02==n R其中,Q=产量,K=资本,L=劳动时间(技术指标),n=样本容量。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
方差
第五章 多重共线性
本章讨论 ☻什么是多重共线性 ☻多重共线性产生的后果 ☻多重共线性的检验 ☻多重共线性的补救措施
第一节 什么是多重共线性
一. 多重共线性的概念
多重共线性:在多元线性回归模型中,解 释变量之间存在着完全的线性关系或接近 的线性关系
依据参数估计量及其标准误,可计算出各回 归系数估计量的t统计量值:
t0
8.133 8.92
0.91,t1
1.059 0.17
6.10,t2
0.452 0.66
0.69, t3
0.121 1.09
0.11
除t1外,其余的t值都很小。工资收入X1的系数的t 检验值虽然显著,但该系数的估计值过大,该值为 工资收入对消费边际效应,因为它为1.059,意味 着工资收入每增加一美元,消费支出的增长平均将 超过一美元,这与经济理论和常识不符。
2、参数估计值的方差无限大
由第四章得ˆ2和ˆ3的方差为:
即:
Var(ˆ2 )
x22x32
2x32 (x2x3)2
Var (ˆ3 )
x22x32
2x22 (x2x3)2
设x2 x3
Var(ˆ2 )
2( x2 )2 x22( x2 )2 (x2x2 )2
2.1832 Schwarz criterion
0.7860
Log likelihood
-4.9972 F-statistic
60.1321
Durbin-Watson stat
0.66 Prob(F-statistic)
0.0000
(1)写出回归方程;
(2)请根据上表中已有数据,填写表中括 号处缺失结果(注意给出计算步骤)
Variable
Coefficient Std. Error t-Statistic Prob.
C
2.9911 0.1426
20.9787 0.0000
LOG(X2)
-0.6589 0.1276
---------- 0.0000
LOG(X3)
0.6752 --------
5.8018 0.0000
R-squared
另外,理论上非工资—非农业收入与农业收入也是 消费行为的重要解释变量,但两者的t检验都没有 通过。这些迹象表明,模型中存在严重的多重共线 性,不同收入部分之间的相互关系,掩盖了各个部 分对解释消费行为的单独影响。
第四节 多重共线性的补救措施 一、增加样本容量
样本数据太少,易产生多重共线性。
二、利用先验信息
X3 0.999
1
说明 X1 、X2近似完全线性关系。可以判定 模型存在严重的多重共线性
对25只股票价格变动情况进行实证分析,设置模型如下: ln(Y) =β 1+β 2ln(X2)+β 3ln(X3)+ut,其中Y为股价价格, X2为交易日平均换手率,X3为每股收益,回归结果如下:
Dependent Variable: LOG(Y) Included observations: 25
x22 2
0
同理,易得 Var(ˆ3)
Байду номын сангаас
EVIEWS遇到完全多重共线性时, 会显示
Near singular matrix,无法进行 估计
二、不完全多重共线性下的后果
1、估计量的方差增大
由于
Var(ˆ2 )
x32x22
2x32 (x2x3)2
2
方差膨胀因子
先验信息:在此之前的研究成果 所提供的信息。
利用某些先验信息,将信息重叠 的一些变量合为一个变量,从而 消除共线性。
接例1
假如认为消费对财富的变化率是对收 入的相应变化率的1/10,即a3=1/10a2 , 如何解决多重共线性?
将a3=1/10a2 带入模型,可得 Y=a1+a2(X2+0.1X3)+ut 此时解释变量只有一个:X2+0.1X3,此
相关)
(6)随机扰动项服从正态分布。
不满足基本假定的情形(1)
1、通常不会发生随机扰动项均值不等于0的 情形。若发生也不会影响解释变量的系数, 只会影响截距项。
2、随机扰动项正态性假设一般能够成立, 就算不成立,在大样本下也会近似成立的。 所以不讨论此假定是否违背。
不满足基本假定的情形(2)
Multi-Collinearity
第五章 多 重 共 线 性
问题的提出
在前述基本假定下OLS估计具有BLUE 的优良性。然而实际问题中,这些基 本假定往往不能满足,使OLS方法失效 不再具有BLUE特性。估计参数时,必 须检验基本假定是否满足,并针对基 本假定不满足的情况,采取相应的补 救措施。
S.D. dependent var
Akaike info criterion
Schwarz criterion
F-statistic
Prob(F-statistic)
Prob. 0.0000 0.2936
0.000 0.0003 0.9427 0.5776 0.5432 10049.04 12585.51 17.58009 17.90704 366.6801 0.000000
另外判断参数估计值的符号,如果不符合 经济理论或实际情况,可能存在多重共线性。
练习题4.5
从模型拟合结果可知,样本观测个数为27, 消费模型的判定系数,F统计量为107.37,在 0.05置信水平下查分子自由度为3,分母自由 度为23的F临界值为3.028,计算的F值远大 于临界值,表明回归方程是显著的。模型整 体拟合程度较高。
例2 课本例题 发展农业会减少财政收入吗?
财政收入模型:
CSi 0 1NZi 2GZi 3JZZi 4TPOPi 5CUMi 6SZMi ui
财政收入模型的EViews估计结果
Variable 农业增加值NZ 工业增加值GZ 建筑业增加值JZZ 总人口TPOP 最终消费CUM 受灾面积SZM
JZZ 0.983 0.999 1.000 0.864 0.996
TPOP 0.928 0.844 0.864 1.000 0.889
CUM 0.989 0.993 0.996 0.889 1.000
SZM 0.226 0.129 0.155 0.388 0.185
SZM 0.226 0.129 0.155 0.388 0.185 1.000
(3)进行统计检验F检验和t检验?
(4)已知log(X2)和log(X3)相关系数=0.2767,请问是否存在严重的多重共线性?
例如(引子)
NZ
GZ
JZZ TPOP CUM
NZ 1.000 0.973 0.983 0.928 0.989
GZ 0.973 1.000 0.999 0.844 0.993
ˆ2 (
yx2 (
)( x22
)(
x32
) x32
( )
(
yx3 )( x2 x3
x2 )2
x3()
0 0
)
ˆ3
(yx3)(x22 ) (yx2 )(x2x3) (x22 )(x32 ) (x2x3)2
(0) 0
则无法确定ˆ2、ˆ3的数值。
0.8454 Mean dependent var 1.7589
Adjusted R-squared
0.8313 S.D. dependent var
0.7670
S.E.of regression
0.3150 Akaike info criterion 0.6398
Sum squared resid
注意:
较高的简单相关系数只是多重共线性存在的 充分条件,而不是必要条件。特别是在多于 两个解释变量的回归模型中,有时较低的简 单相关系数也可能存在多重共线性。因此并 不能简单地依据相关系数进行多重共线性的 准确判断。
二、综合判断法
R2 (或R2)大,F值大;t 值小,说明模型存在多重共线性
这是因为:R2和F值大,表明总离差中95%(假定R2 0.95) 是由回归解释的,各解释变量对Y的联合线性作用显著。 在此前提下,若各个t值很小,说明各解释变量之间存在共线 性,对Y的独立作用不能分辨,故t检验不显著。
一般来讲,多重共线性难以避 免,所以我们关心的不是多重 共线性的有无,而是多重共线 性的程度。
第二节 多重共线性产生的后果 一、完全多重共线性下的后果
1、参数估计值不确定
例:以二元线性回归模型为例
如两个解释变量完全相关: 例如设 x2 x3, 则ˆ2、ˆ3的分子、分母均为(0 不定式)
一、简单相关系数检验法
含义:简单相关系数检验法是利用解释变 量之间的线性相关程度去判断是否存在严 重多重共线性的一种简便方法。
判断规则:一般而言,如果每两个解释变 量的简单相关系数(零阶相关系数)比较高, 例如大于0.8,则可认为存在着较严重的多 重共线性。
例如(例1)
X2 X2 1 X3 0.999
检验基本假定是否满足的检验称为计 量经济学检验。
回顾6项基本假定
(1)解释变量间不相关(无多重共线性)
(2)E(ui)=0
(随机项均值为零)
(3)Var(ui)=2 (同方差)
(4)Cov(ui, uj)=0(随机项无自相关) (5)Cov(X, ui)=0(随机项与解释变量X不