第八章 多重共线性:解释变量相关会有什么后果1126
多重共线性PPT课件

2-2
多重共线性的性质
多重共线性(multicollinearity)原先的含义指一 个回归模型中的一些或全部解释变量之间存 在一种“完全”或者准确的线性关系。 l 1 X1 + l 2 X 2 + L + l k X k = 0 现在共线性更为广义,既包括上述完全共线 性,也包括非完全(高度)共线性的形式。
2-18
8.4 多重共线性的实际后果
OLS估计量的方差和标准误较大。 置信区间变宽。 t值不显著 。 R 2值较高,但t值并不都是统计显著的。 OLS估计量及其标准误对数据的微小变化非常敏感, 即它们很不稳定。 回归系数符号有误。 难以评估各个解释变量对回归平方和(ESS)或者 R 2 的贡献。
2-15
出现“高度”但“不完全”多重共线性 时的估计问题
仍以上述三变量回归模型为例。 假定 X 3i = l X 2i + vi ,其中 å vi x2i = 0
回归系数估计:
b2 =
(邋yi x2i )(l
2
2 2 x2 + v i i )- (l 2 2i 2 2 2i
邋yi x2i +
l 1 X1 + l 2 X 2 + L + l k X k + ui = 0
2-3
为什么CLRM假定无多重共线性?
如果多重共线性是完全的,则X变量的回归 系数将是不确定的,并且它们的标准误为无 穷大。 如果多重共线性是不完全的,则虽然回归系 数可以确定,却有较大的标准误(相对于系 数本身来说),也即系数不能以很高的精度 或准确度加以估计。
2-26
8.7 扩展一例:1960-1982年期间美国的鸡肉需求
福建农林大学计量经济学试卷答案

计量经济学练习题 一.名词解释1.普通最小二乘法(Ordinary Least Squares,OLS):已知一组样本观测值{}ni Y X i i ,2,1:),(⋯=,普通最小二乘法要求样本回归函数尽可以好地拟合这组值,即样本回归线上的点∧i Y 与真实观测点Yt 的“总体误差”尽可能地小。
普通最小二乘法给出的判断标准是:被解释变量的估计值与实际观测值之差的平方和最小。
2.广义最小二乘法GLS :加权最小二乘法具有比普通最小二乘法更普遍的意义,或者说普通最小二乘法只是加权最小二乘法中权恒取1时的一种特殊情况。
从此意义看,加权最小二乘法也称为广义最小二乘法。
3.加权最小二乘法WLS :加权最小二乘法是对原模型加权,使之变成一个新的不存在异方差性的模型,然后采用普通最小二乘法估计其参数。
4.工具变量法IV :工具变量法是克服解释变量与随机干扰项相关影响的一种参数估计方法。
5.两阶段最小二乘法2SLS, Two Stage Least Squares :两阶段最小二乘法是一种既适用于恰好识别的结构方程,以适用于过度识别的结构方程的单方程估计方法。
6.间接最小二乘法ILS :间接最小二乘法是先对关于内生解释变量的简化式方程采用普通小最二乘法估计简化式参数,得到简化式参数估计量,然后过通参数关系体系,计算得到结构式参数的估计量的一种方法。
7.异方差性Heteroskedasticity :对于不同的样本点,随机干扰项的方差不再是常数,而是互不相同,则认为出现了异方差性。
8.序列相关性Serial Correlation :多元线性回归模型的基本假设之一是模型的随机干扰项相互独立或不相关。
如果模型的随机干扰项违背了相互独立的基本假设,称为存在序列相关性。
9.多重共线性Multicollinearity :对于模型i k i i X X X Y μββββ++⋯+++=i k 22110i ,其基本假设之一是解释变量X 1,X 2,…,Xk 是相互独立的。
多重共线性

多重共线性“多重共线性”一词由R. Frisch 1934年提出,它原指模型的解释变量间存在线性关系。
1.非多重共线性假定 rk (X 'X ) = rk (X ) = k解释变量不是完全线性相关的或接近完全线性相关的。
| r x i x j | ≠1, | r x i x j | 不近似等于1。
就模型中解释变量的关系而言,有三种可能。
(1)r x i x j = 0,解释变量间非线性相关,变量间相互正交。
这时已不需要多重回归,每个参数βj 都可以通过y 对x j 的一元回归来估计。
(2)| r x i x j | = 1,解释变量间完全共线性。
此时模型参数将无法确定。
直观地看,当两变量按同一方式变化时,要区别每个解释变量对被解释变量的影响程度就非常困难。
(3)0 < | r x i x j | < 1,解释变量间存在一定程度的线性相关。
实际中常遇到的是这种情形。
随着共线性程度的加强,对参数估计值的准确性、稳定性带来影响。
因此我们关心的不是有无多重共线性,而是多重共线性的程度。
2.多重共线性的经济解释(1)经济变量在时间上有共同变化的趋势。
如在经济上升时期,收入、消费、就业率等都增长,当经济收缩期,收入、消费、就业率等又都下降。
当这些变量同时进入模型后就会带来多重共线性问题。
0.E+001.E+112.E+113.E+114.E+11808284868890929496980002GDPCONS0.E +001.E +112.E +113.E +114.E +110.0E +005.0E +101.0E +111.5E +112.0E +112.5E +11C O N SG D P o f H o n g K o n g(2)解释变量与其滞后变量同作解释变量。
0.E+001.E+112.E+113.E+114.E+11808284868890929496980002GDP0.E+001.E+112.E+113.E+114.E+110.E+001.E+112.E+113.E+114.E+11GDP(-1)GDP3.多重共线性的后果(1)当 | r x i x j | = 1,X 为降秩矩阵,则 (X 'X ) -1不存在,βˆ= (X 'X )-1 X 'Y 不可计算。
第8章 多重共线性:解释变量相关会有什么后果

Yi A1 A2 X 2 i A3 (300 2 X 2 i ) ui
A1 300 A3 A2 2 A3 X 2 i ui
令
C1 A1 300 A3 C 2 A2 2 A3
ˆ ˆ X ˆ X ˆ 3t X 3.12 31.2 1t 32.1 2t
• 利用以上偏回归系数,3个变量之间的偏相关系数 可定义如下:
ˆ ˆ r12.3 12.3 21.3
ˆ ˆ r13.2 13.2 31.2
ˆ ˆ r23.1 23.1 32.1
案例分析 一、研究的目的要求
提出研究的问题——为了规划中国未来国内旅游产业 的发展,需要定量地分析影响中国国内旅游市场发展 的主要因素。
二、模型设定及其估计
影响因素分析与确定——影响因素主要有国内旅游 人数 X 2,城镇居民人均旅游支出 X 3,农村居民人均
旅游支出 X 4 ,并以公路里程次 X 5 和铁路里程
8.7鸡肉需求函数[方程(8.15)]的共线性诊断 1.相关矩阵
鸡肉需求函数[方程(8.15)]的共线性诊断 2.辅助回归
8.8 如何解决多重共线性:补救措施
• • • • • • 从模型中删掉一个变量 获取额外的数据或新的样本 重新考虑模型 参数的先验信息 变量变换 其他补救措施
(1)从模型中删掉一个变量
留该变量。
若新变量的引入未能改进 R 2 和 F 检验,且对其他回 归参数估计值的t 检验也未带来什么影响,则认为该 变量是多余变量。 若新变量的引入未能改进 R 2 和 F 检验,且显著地影 响了其他回归参数估计值的数值或符号,同时本身的 回归参数也通不过t 检验,说明出现了严重的多重共 线性。
多重共线性问题分析

与其余解释变量之间有严重的多重共线性,且这
种多重共线性可能会过度地影响最小二乘估计。
(4)直观判断法
①当增加或剔除一个解释变量,或者改变一
个观测值时,回归参数的估计值发生较大变 化,回归方程可能存在严重的多重共线性。 ②从定性分析认为,一些重要的解释变量的 回归系数的标准误差较大,在回归方程中没 有通过显著性检验时,可初步判断可能存在 严重的多重共线性。
例 如 :
年份 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
C 1759.1 2005.4 2317.1 2604.1 2867.9 3182.5 3674.5 4589.0 5175.0 5961.2 7633.1 8523.5 9113.2 10315.9 12459.8 15682.4 20809.8 26944.5 32152.3 34854.6 36921.1 39334.4 42911.9
三、多重共线性的检验
多重共线性表现为解释变量之间具有相关关系,
所以用于多重共线性的检验方法主要是统计方法:
如判定系数检验法、逐步回归检验法等。 多重共线性检验的任务是: (1)检验多重共线性是否存在;
(2)估计多重共线性的范围,即判断哪些变量之
间存在共线性。
1、检验多重共线性是否存在
(1)对两个解释变量的模型,采用简单相关系数法
可以有效地消除原模型中的多重共线性。
一般而言,差分后变量之间的相关性要比
差分前弱得多,所以差分后的模型可能降
多重共线性与随机解释变量

• 由于多重共线性表现为解释变量之间具有相关关
系,所以用于多重共线性的检验方法主要是统计方 法,如判定系数检验法、逐步回归检验法等。
• 多重共线性检验的任务是: (1)检验多重共线性是否存在; (2)估计多重共线性的范围,即判断哪些变量 之间存在共线性。
1、检验多重共线性是否存在
(1)对两个解释变量的模型,采用简单相关系数法 求出X1与X2的简单相关系数r,若|r|接近1,则说 明两变量存在较强的多重共线性。 (2)对多个解释变量的模型,采用综合统计检验法 若在OLS法下,模型的R2与F值较大,但各参数估 计量的t检验值较小,则说明各解释变量对Y的联合线 性作用显著,但各解释变量之间存在共线性而使得它 们各自对Y的独立作用不能分辨,故t检验不显著。
,
2
所以,多重共线性使参数估计量的方差增大。
方差扩大因子(Variance Inflation Factor) 为 1/(1-r2),其增大趋势见下表:
相关系 数平方 方差扩 大因子 0 1 0.5 2 0.8 5 0.9 10 0.95 0.96 20
ˆ
0.97 33
0.98 50
0.99 100
0.999 1000
25
r 2 =1 , var( 1 ) 当完全共线时,
3、参数估计量的经济含义不合理
如果模型(2.8.1)中两个解释变量具有线性相关性, 例如 X1 和 X2 ,那么它们中的一个变量可以由另一个变 量表征。 这时, X1 和 X2 前的参数并不反映各自与被解释变 量之间的结构关系,而是反映它们对被解释变量的共 同影响。 所以,各自的参数已经失去了应有的经济含义, 于是经常表现出似乎反常的现象,例如本来应该是正 的,结果却是负的。
08_多重共线性

t-Statistic -9.738075 11.10763
Prob. 0.0000 0.0000 37.80000 6.613118 4.111978 4.172496 123.3795 0.000004
6
两个回归结果的比较: 1 . X2 的 标 准 差 增 大 , t 统 计 量 变 小 ; 2 . 判 定 系 数 和 修 正 的 判 定 系 数 的 改 变 并 不 显 著 。( 判 定 系 数 增 加 不 多 ,修 正 判定系数减低) 3 . 增 加 的 变 量 X4 并 不 显 著 , 且 符 号 与 预 期 不 符 ; 4 . X4 虽 不 显 著 , 但 模 型 的 整 体 却 是 显 著 的 。 ( 意 味 着 X2 与 X4 联 合 对 Y 的线性影响是显著的。 )
t-Statistic 66.53811 -17.93502
Prob. 0.0000 0.0000 37.80000 6.613118 3.191992
4
Sum squared resid Log likelihood Durbin-Watson stat
9.551515 -13.95996 2.051315
多重共线性测定实际上是一些经验法则。 1. 回归模型的判定系数较高,但却有很多的 t 值不显著,或许多回归系数
的符号或大小与预期不一致。 2. 3. 解释变量之间的简单相关系数或偏相关系数很高。 从属回归或辅助回归。
9
厦门大学经济学院 胡朝霞
分别用模型中的每一个解释变量对其它剩余的解释变量回归,并检验各个 回归方程的判定系数是否显著为零(即回归方程的 F 检验) 。 例 : p207 4. 方 差 膨 胀 因 子( VIF ) :指 的 是 模 型 中 增 加 某 个 解 释 变 量 后 而 使 某 个 参 数
7.2多重共线性的后果

例如, 例如,对于二元线性回归模型
Yi = β 0 + β1 X 1i + β 2 X 2i + ui
如果两个解释变量完全相关,如X 2 = λ X 1,则该二元 线性回归模型退化为一元线性回归模型:
Yi = β 0 + β1 + λβ 2)X 1i + ui (
这时,只能确定综合参数β1 + λβ 2的估计值,无法 确定β1,β 2 各自的估计值。
β1 =
∂Y X1
根据偏导数的概念, 的经济含义是: 根据偏导数的概念,β1的经济含义是:在其他变 量保持不变的情况下, 变化一个单位将使Y变 量保持不变的情况下,X1 变化一个单位将使 变 个单位。 化β1个单位。 但在多重共线性的情况下, 但在多重共线性的情况下,解释变量的相关性将 无法“保持其他变量不变” 无法“保持其他变量不变”,从而也难以分离出 每个解释变量的单独影响。 每个解释变量的单独影响。
四、回归模型缺乏稳定性 从同一总体中抽取不同的样本估计模型, 从同一总体中抽取不同的样本估计模型,得到的 估计值不会完全相同,但不应该有显著差异, 估计值不会完全相同,但不应该有显著差异,此 时称模型为稳定的。 时称模型为稳定的。但是当模型存在多重共线性 样本数据即使有微小的变化, 时,样本数据即使有微小的变化,也可能导致系 数估计值发生明显变化,甚至出现符号错误, 数估计值发生明显变化,甚至出现符号错误,参 数估计对样本的变化比较敏感。 数估计对样本的变化比较敏感。
多重共线性的后果 第二节 多重共线性的后果
• • • • OLS估计量的方差增大 估计量的方差增大 难以区分每个解释变量的单独影响 变量的显著性检验失去意义 回归模型缺乏稳定性
经典回归模型要求模型不存在完全的多重共线 经典回归模型要求模型不存在完全的多重共线 所以,即使模型存在严重的多重共线性, 性,所以,即使模型存在严重的多重共线性,也并 不违背基本假定, 估计仍然是最佳线性无偏估 不违背基本假定,OLS估计仍然是最佳线性无偏估 估计 但多重共线性却会产生以下问题: 计。但多重共线性却会产生以下问题: 一、OLS估计量的方差增大 估计量的方差增大 设二元线性回归模型为: 设二元线性回归模型为:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
概念:方差膨胀因子
根据P76第四章有:
Var (b2 ) Var (b3 )
1 VIF 2 1 R2
R2增加
x 1 R
2 2i
2
2 2
2
x
2 2i
VIF
x 1 R
2 3i
2
2 2
2
x
2 3i
VIF
b2和b3的方差(或标准差)增加(或膨胀)
但是,这一标准并不可靠,有时候,两两相关系数 可能较低,但仍可能存在共线性。
4、从属回归或辅助回归(判定系数检验法)
进一步确定哪些变量引起的
Step1:使模型中每一个解释变量分别以其余解释变量为 解释变量进行回归(这些回归称为从属回归或辅助回归 Xji=1X1i+2X2i+LXLi Ste:2:首先观察这些辅助回归相应的拟合优度(或判定系 数)的大小;然后对这些辅助回归进行F检验H0:Rj.2=0
Fj
RSS j . / 样本量-待估参数个数
ESS j . / 解释变量个数
2 1R j. / df RSS
R j . / df ESS
2
若拒绝原假设则说明Xj与其他解释变量之间存在显著的线性关系。
4、从属回归或辅助回归(判定系数检验法) Rj•2:第j个解释变量对其他解释变量的回归方程的判定系数 若存在较强的共线性 (1- Rj•2 )较小 Rj•2较大且接近于1 从而Fj的值较大。
(3)样本资料的限制
由于完全符合理论模型所要求的样本数据较难 收集,特定样本可能存在某种程度的多重共线性 一般经验:
时间序列数据样本:简单线性模型,往往存在 多重共线性。
截面数据样本:问题不那么严重,但多重共线 性仍然是存在的。
三、多重共线性的诊断(8.5)
任务:
(1)检验多重共线性是否存在及度量共线性的程度;
如果存在c1X1i+c2X2i+…+ckXki=0 其中: ci不全为0
i=1,2,…,n
不可能获得所有参数的唯一估计值及根据样本进行任何 统计推断。 2、近似(不完全、高度)共线性 (near/imperfect/high multicollinearity)
如果存在 c1X1i+c2X2i+…增大,1/(1-R2) 为方差膨胀因子(Variance Inflation Factor, VIF)
当完全不共线时, R2 =0
当近似共线时, 0< R2 <1
VIF 1,
二、多重共线性的实际后果(8.4)
1、OLS估计量的方差和标准误较大。 2、置信区间变宽。 3、t值不显著。
基本假定 误差项之间不相关
第八章 多重共线性
Multi-Collinearity
• 一、多重共线性的性质
• 二、多重共线性的实际后果
• 三、多重共线性的诊断
• 四、克服多重共线性的方法 • 五、案例
一、多重共线性的性质(8.1-8.2)
对于模型
Yi=B0+B1X1i+B2X2i+…+BkXki+μi i=1,2,…,n
其基本假设之一是解释变量是互相独立的。
如果某两个或多个解释变量之间出现了相 关性,则称为多重共线性(Multicollinearity)。 1、完全多重共线性 2、近似(不完全)多重共线性
完全共线性的情况 并不多见,一般出 现的是在一定程度 上的共线性,即近 似共线性。
1、解释变量间存在完全共线性(perfect multicollinearity)
由于标准误较大,故总体参数的置信区间就变宽了。
由于标准误变大,所以t值变小,零假设易被接受。 变量间作用抵消。
4、R2值较高,但t值并不都是显著的。
5、OLS估计量及其标准误对数据的微小变化非常敏感。
6、回归系数的符号有误。
不能通过经济意义的检验。
7、难以评估各个解释变量对ESS或R2的贡献。
补充:产生多重共线性的主要原因(了解)
i=1,2,…,n
OLS 估计量仍是最优线性无偏估计量 其中 ci不全为0,vi为随机误差项
完全多重共线性和不完全多重共线性:举例 • 完全多重共线性模型: X3=300-2X2 R2=1, 且相关系数r=1 (模型8-3) 两个变量之间存在精确的线性关系 • 不完全多重共线性模型 X4=299.92-2.0055X2+e (模型8-9) R2=0.9770, 且相关系数r=-0.9884 两个变量之间存在不精确的线性关系,即存在 近似的线性关系.
(1)经济变量相关的共同趋势
时间序列样本:经济繁荣时期,各基本经济 变量(收入、消费、投资、价格)都趋于增长; 衰退时期,又同时趋于下降。
横截面数据:生产函数中,资本投入与劳动 力投入往往出现高度相关情况,大企业二者都大, 小企业二者都小。
(2)滞后变量的引入 在经济计量模型中,往往需要引入滞后 经济变量来反映真实的经济关系。 例如,消费=f(当期收入, 前期收入) Y=f(Xi,Xi-1) 显然,两期收入间有较强的线性相关性。
• 目的三:估计一组系数(如估计两个系数的和或 差,例如,解释行业生产规模效应),存在共线 性也没有问题。
5/15/2014
五、克服多重共线性的方法 (8.8)
1、排除引起共线性的变量
(补充)逐步回归法:
两难:共线性; 设定误差
找出引起多重共线性的解释变量,将它排除出去。 以Y为被解释变量,逐个引入解释变量,构成回归模 型,进行模型估计
根据拟合优度的变化决定新引入的变量是否独立
若拟合优度变化显著,则说明新引入的变量是一个 独立解释变量; 若拟合优度变化很不显著,则说明新引入的变量与 其它变量之间存在共线性关系
五、克服多重共线性的方法
2、获取额外的数据或新的样本
增加样本可改善共线性问题,但有困难
3、重新考虑模型
4、参数的先验信息
然先验信息难以获得,且其准确性易遭质疑
这是共线性的典型特征 首先,检验多重共线性 是否存在(1)(2)
三、多重共线性的诊断(8.5)
2、对两个解释变量的模型,采用简单相关系数法
求出X1与X2的简单相关系数r,若|r|接近1,则说 明两变量存在较强的多重共线性。 3、对多个解释变量的模型,检查偏相关系数。
计算这些解释变量两两之间的相关系数,如果有些 相关系数很高(如超过0.8),则可能认为存在较为严 重的共线性。
第二部分
实践中的回归分析
基本假定违背:不满足基本假定的情况。
(1)模型设定有偏误;所选模型是正确设定的
基本假定 所选模型是正确设定的
(2)解释变量之间存在多重共线性;
基本假定 解释变量之间不存在完全线性关系
(3)随机误差项序列存在异方差性;
基本假定 误差项方差为常数
(4)随机误差项序列存在序列相关性。
5、变量变换
名义变量变为实际变量、采用变量的差分形式
本章重点复习: 8.1~8.12; 8.14~8.18、8.20
(2)估计多重共线性的范围,即判断哪些变量之间存在 共线性。
注意:
(1)没有度量多重共线性的单一方法;
(2)具有的是一些经验法则,即是在具体应用中能够提
供判断存在多重共线性的一些线索。
三、多重共线性的诊断
1、对多个解释变量的模型,采用综合统计检验法 若 在OLS法下:R2与F值较大,但t检验值较小,说 明各解释变量对Y的联合线性作用显著,但各解释 变量间存在共线性而使得它们对Y的独立作用不能 分辨,故t检验不显著。 R2值较高,但解释变量t值统计显著的不多。
5/15/2014
注意:
除非是完全共线性,多重共线性并不意味 着任何基本假设的违背; 因此,即使出现较高程度的多重共线性, OLS估计量仍具有线性性等良好的统计性质。 问题在于,即使OLS法仍是最好的估计方法, 它却不是“完美的”,尤其是在统计推断上无 法给出真正有用的信息。
存在不完全多重共线性时 OLS估计量仍是最优线性无偏估计量( BLUE). (即不违背前面第四章所学过的任何基本假定)
但这不代表任何一个样本估计值的性质(如方差最 小等)
参数估计值的方差与标准差变大 容易使通过样本计算的t值小于临界值, 误导作出参数为0的推断,最终得出t检验 结果与实际不符
可能将重要的解释变量排除在模型之外
多重共线性本质上是一个样本(回归)现象。即使 在总体回归方程中解释变量X之间不是线性相关的, 但在某个样本中,解释变量X之间可能线性相关.
因此,给定显著性水平,计算F值,并与相应的临界值比 较,来判定是否存在相关性。
• 5、方差膨胀因子
1 VIF 2 1 R2
• 其中,R22表示解释变量之间辅助回归方 程的样本决定系数。
5/15/2014
四、多重共线性评价:必定不好吗?
• 根据不同的研究目地加以选择:
• 目的一:预测因变量的均值,即使存在多重共线 性,只要模型中的共线性一直存在下去,并且具 有较高的解释能力(判定系数较大) • 目的二:除了要求进行预测,还要估计模型参数。 则严重的共线性存在就不好