第八章多重共线性:解释变量相关会有什么后果1126案例
多重共线性

解决方法
解决方法
(1)排除引起共线性的变量 找出引起多重共线性的解释变量,将它排除出去,以逐步回归法得到最广泛的应用。 (2)差分法 时间序列数据、线性模型:将原模型变换为差分模型。 (3)减小参数估计量的方差:岭回归法(Ridge Regression)。 (4)简单相关系数检验法
谢谢观看
简介
简介
对线性回归模型 基本假设之一是自变量,之间不存在严格的线性关系。如不然,则会对回归参数估计带来严重影响。为了说 明这一点,首先来计算线性回归模型参数的 LS估计的均方误差。为此。重写线性回归模型的矩阵形式为 其中服从多元正态分布,设计矩阵 X是的,且秩为 p。这时,参数的 LS估计为,而回归系数的 LS估计为。 注意到由此获得的 LS估计是无偏的,于是估计的均方误差为 其中是的特征根。显然,如果至少有一个特征根非常接近于零,则就很大,也就不再是的一个好的估计。由 线性代数的理论知道,若矩阵的某个特质根接近零,就意味着矩阵 X的列向量之间存在近似线性关系。 如果存在一组不全为零的数,使得 则称线性回归模型存在完全共线性;如果还存在随机误差 v,满足,使得 则称线性回归模型存在非完全共线性。 如果线性回归模型存在完全共线性,则回归系数的 LS估计不存在,因此,在线性回归分析中所谈的共线性 主要是非完全共线性,也称为复共线性。判断复共线性及其严重程度的方法主要有特征分析法(analysis of eigenvalue),条件数法 (conditional numbers)和方差扩大因子法(variance inflation factor)。
产生原因
产生原因
主要有3个方面: (1)经济变量相关的共同趋势 (2)滞后变量的引入 (3)样本资料的限制
影响
影响
多重共线性PPT课件

2-2
多重共线性的性质
多重共线性(multicollinearity)原先的含义指一 个回归模型中的一些或全部解释变量之间存 在一种“完全”或者准确的线性关系。 l 1 X1 + l 2 X 2 + L + l k X k = 0 现在共线性更为广义,既包括上述完全共线 性,也包括非完全(高度)共线性的形式。
2-18
8.4 多重共线性的实际后果
OLS估计量的方差和标准误较大。 置信区间变宽。 t值不显著 。 R 2值较高,但t值并不都是统计显著的。 OLS估计量及其标准误对数据的微小变化非常敏感, 即它们很不稳定。 回归系数符号有误。 难以评估各个解释变量对回归平方和(ESS)或者 R 2 的贡献。
2-15
出现“高度”但“不完全”多重共线性 时的估计问题
仍以上述三变量回归模型为例。 假定 X 3i = l X 2i + vi ,其中 å vi x2i = 0
回归系数估计:
b2 =
(邋yi x2i )(l
2
2 2 x2 + v i i )- (l 2 2i 2 2 2i
邋yi x2i +
l 1 X1 + l 2 X 2 + L + l k X k + ui = 0
2-3
为什么CLRM假定无多重共线性?
如果多重共线性是完全的,则X变量的回归 系数将是不确定的,并且它们的标准误为无 穷大。 如果多重共线性是不完全的,则虽然回归系 数可以确定,却有较大的标准误(相对于系 数本身来说),也即系数不能以很高的精度 或准确度加以估计。
2-26
8.7 扩展一例:1960-1982年期间美国的鸡肉需求
多元回归分析中的多重共线性及其解决方法

多元回归分析中的多重共线性及其解决方法在多元回归分析中,多重共线性是一个常见的问题,特别是在自变量之间存在高度相关性的情况下。
多重共线性指的是自变量之间存在线性相关性,这会造成回归模型的稳定性和可靠性下降,使得解释变量的效果难以准确估计。
本文将介绍多重共线性的原因及其解决方法。
一、多重共线性的原因多重共线性常常发生在自变量之间存在高度相关性的情况下,其主要原因有以下几点:1. 样本数据的问题:样本数据中可能存在过多的冗余信息,或者样本数据的分布不均匀,导致变量之间的相关性增加。
2. 选择自变量的问题:在构建回归模型时,选择了过多具有相似解释作用的自变量,这会增加自变量之间的相关性。
3. 数据采集的问题:数据采集过程中可能存在误差或者不完整数据,导致变量之间的相关性增加。
二、多重共线性的影响多重共线性会对多元回归模型的解释变量产生不良影响,主要表现在以下几个方面:1. 回归系数的不稳定性:多重共线性使得回归系数的估计不稳定,难以准确反映各个自变量对因变量的影响。
2. 系数估计值的无效性:多重共线性会导致回归系数估计偏离其真实值,使得对因变量的解释变得不可靠。
3. 预测的不准确性:多重共线性使得模型的解释能力下降,导致对未知数据的预测不准确。
三、多重共线性的解决方法针对多重共线性问题,我们可以采取以下几种方法来解决:1. 剔除相关变量:通过计算自变量之间的相关系数,发现高度相关的变量,选择其中一个作为代表,将其他相关变量剔除。
2. 主成分分析:主成分分析是一种降维技术,可以通过线性变换将原始自变量转化为一组互不相关的主成分,从而降低多重共线性造成的影响。
3. 岭回归:岭回归是一种改良的最小二乘法估计方法,通过在回归模型中加入一个惩罚项,使得回归系数的估计更加稳定。
4. 方差膨胀因子(VIF):VIF可以用来检测自变量之间的相关性程度,若某个自变量的VIF值大于10,则表明该自变量存在较高的共线性,需要进行处理。
第8章 多重共线性:解释变量相关会有什么后果

Yi A1 A2 X 2 i A3 (300 2 X 2 i ) ui
A1 300 A3 A2 2 A3 X 2 i ui
令
C1 A1 300 A3 C 2 A2 2 A3
ˆ ˆ X ˆ X ˆ 3t X 3.12 31.2 1t 32.1 2t
• 利用以上偏回归系数,3个变量之间的偏相关系数 可定义如下:
ˆ ˆ r12.3 12.3 21.3
ˆ ˆ r13.2 13.2 31.2
ˆ ˆ r23.1 23.1 32.1
案例分析 一、研究的目的要求
提出研究的问题——为了规划中国未来国内旅游产业 的发展,需要定量地分析影响中国国内旅游市场发展 的主要因素。
二、模型设定及其估计
影响因素分析与确定——影响因素主要有国内旅游 人数 X 2,城镇居民人均旅游支出 X 3,农村居民人均
旅游支出 X 4 ,并以公路里程次 X 5 和铁路里程
8.7鸡肉需求函数[方程(8.15)]的共线性诊断 1.相关矩阵
鸡肉需求函数[方程(8.15)]的共线性诊断 2.辅助回归
8.8 如何解决多重共线性:补救措施
• • • • • • 从模型中删掉一个变量 获取额外的数据或新的样本 重新考虑模型 参数的先验信息 变量变换 其他补救措施
(1)从模型中删掉一个变量
留该变量。
若新变量的引入未能改进 R 2 和 F 检验,且对其他回 归参数估计值的t 检验也未带来什么影响,则认为该 变量是多余变量。 若新变量的引入未能改进 R 2 和 F 检验,且显著地影 响了其他回归参数估计值的数值或符号,同时本身的 回归参数也通不过t 检验,说明出现了严重的多重共 线性。
多重共线性问题分析

与其余解释变量之间有严重的多重共线性,且这
种多重共线性可能会过度地影响最小二乘估计。
(4)直观判断法
①当增加或剔除一个解释变量,或者改变一
个观测值时,回归参数的估计值发生较大变 化,回归方程可能存在严重的多重共线性。 ②从定性分析认为,一些重要的解释变量的 回归系数的标准误差较大,在回归方程中没 有通过显著性检验时,可初步判断可能存在 严重的多重共线性。
例 如 :
年份 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
C 1759.1 2005.4 2317.1 2604.1 2867.9 3182.5 3674.5 4589.0 5175.0 5961.2 7633.1 8523.5 9113.2 10315.9 12459.8 15682.4 20809.8 26944.5 32152.3 34854.6 36921.1 39334.4 42911.9
三、多重共线性的检验
多重共线性表现为解释变量之间具有相关关系,
所以用于多重共线性的检验方法主要是统计方法:
如判定系数检验法、逐步回归检验法等。 多重共线性检验的任务是: (1)检验多重共线性是否存在;
(2)估计多重共线性的范围,即判断哪些变量之
间存在共线性。
1、检验多重共线性是否存在
(1)对两个解释变量的模型,采用简单相关系数法
可以有效地消除原模型中的多重共线性。
一般而言,差分后变量之间的相关性要比
差分前弱得多,所以差分后的模型可能降
多重共线性与随机解释变量

• 由于多重共线性表现为解释变量之间具有相关关
系,所以用于多重共线性的检验方法主要是统计方 法,如判定系数检验法、逐步回归检验法等。
• 多重共线性检验的任务是: (1)检验多重共线性是否存在; (2)估计多重共线性的范围,即判断哪些变量 之间存在共线性。
1、检验多重共线性是否存在
(1)对两个解释变量的模型,采用简单相关系数法 求出X1与X2的简单相关系数r,若|r|接近1,则说 明两变量存在较强的多重共线性。 (2)对多个解释变量的模型,采用综合统计检验法 若在OLS法下,模型的R2与F值较大,但各参数估 计量的t检验值较小,则说明各解释变量对Y的联合线 性作用显著,但各解释变量之间存在共线性而使得它 们各自对Y的独立作用不能分辨,故t检验不显著。
,
2
所以,多重共线性使参数估计量的方差增大。
方差扩大因子(Variance Inflation Factor) 为 1/(1-r2),其增大趋势见下表:
相关系 数平方 方差扩 大因子 0 1 0.5 2 0.8 5 0.9 10 0.95 0.96 20
ˆ
0.97 33
0.98 50
0.99 100
0.999 1000
25
r 2 =1 , var( 1 ) 当完全共线时,
3、参数估计量的经济含义不合理
如果模型(2.8.1)中两个解释变量具有线性相关性, 例如 X1 和 X2 ,那么它们中的一个变量可以由另一个变 量表征。 这时, X1 和 X2 前的参数并不反映各自与被解释变 量之间的结构关系,而是反映它们对被解释变量的共 同影响。 所以,各自的参数已经失去了应有的经济含义, 于是经常表现出似乎反常的现象,例如本来应该是正 的,结果却是负的。
完全多重共线性产生的后果1参数的估计值不确定当解释变量-e会学

当
r23
增大时 Var( 2 ) 也增大
^
2.对参数区间估计时,置信区间趋于变大
3.假设检验容易作出错误的判断 4.可能造成可决系数较高,但对各个参数单独的 t 检验却可能不显著,甚至可能使估计的回归系 数符号相反,得出完全错误的结论。
可能造成可决系数较高但对各个参数单独的检验却可能不显著甚至可能使估计的回归系数符号相反得出完全错误的结论
二、产生多重共线性的背景
多重共线性产生的经济背景主要有几种情形:
1.经济变量之间具有共同变化趋势。
2.模型中包含滞后变量。
3.利用截面数据建立模型也可能出现多重共线性。
4.样本数据自身的原因。
第二节 多重共线性产生的后果
本节基本内容: ●完全多重共线性产生的后果 ●不完全多重共线性产生的后果
一、完全多重共线性产生的后果
1.参数的估计值不确定
当解释变量完全线性相关时 ——OLS 估计式不确定
▲ 从偏回归系数意义看:在 X 2和 X 3 完全共线性时,无法保
持 X 3不变,去单独考虑 X 2 对Y 的影响( X 2 和 X 3 的影响 不可区分)
பைடு நூலகம்
0 ˆ ▲ 从OLS估计式看:可以证明此时 β2 = 0 2.参数估计值的方差无限大
ˆ ) OLS估计式的方差成为无穷大: Var( 2
二、不完全多重共线性产生的后果
如果模型中存在不完全的多重共线性,可以得到 参数的估计值,但是对计量经济分析可能会产生 一系列的影响。
1.参数估计值的方差增大
§多重共线性解读

完全多重共线性
Y=XB+N=(X1,……,Xi,……,Xk)B+N 完全共线性:∣X'X∣=0,(X'X)-1不存在
1 2 2 4 c 2 xi 2 c3 xi 3 0 c 1 xi 1 3 6 4 8 这里, 0 xi 1 2 xi 2 x2、判明存在多重共线性的范围
如果存在多重共线性,需进一步确定究竟由哪些变量引起。 (1) 判定系数检验法 使模型中每一个解释变量分别以其余解释变量为解释变量进 行回归,并计算相应的拟合优度。 如果某一种回归
c x c x c x
1 i1 2 i2 3
i3
0
其中0 xi1 xi 2 xi 3 0 X X 0
二、实际经济问题中的多重共线性
一般地,产生多重共线性的主要原因有以下三个方面:
(1)经济变量相关的共同趋势
时间序列样本:经济繁荣时期,各基本经济变量(收 入、消费、投资、价格)都趋于增长;衰退时期,又同 时趋于下降。 横截面数据:生产函数中,资本投入与劳动力投入往 往出现高度相关情况,大企业二者都大,小企业都小。
其中 : ci 不全为 0 ,即某一个解释变量可
以用其他解释变量的线性组合表示,则称
为解释变量间存在完全共线性( Perfect
Multicollinearity)。
如果存在
c1X1i+c2X2i+…+ckXki+vi=0 i=1,2,…,n
其中ci不全为0,vi为随机误差项,则称为 近似 共线性( Near Multicollinearity )。完全多 重共线性的情况并不多见,一般出现一定程度 上的多重共线性,即近似共线性。
Q f K , L u
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 目的三:估计一组系数(如估计两个系数的和或 差,例如,解释行业生产规模效应),存在共线 性也没有问题。
10/14/2018
五、克服多重共线性的方法 (8.8)
1、排除引起共线性的变量
(补充)逐步回归法:
两难:共线性; 设定误差
找出引起多重共线性的解释变量,将它排除出去。 以Y为被解释变量,逐个引入解释变量,构成回归模 型,进行模型估计
因此,给定显著性水平,计算F值,并与相应的临界值比 较,来判定是否存在相关性。
• 5、方差膨胀因子
1 VIF 2 1 R2
• 其中,R22表示解释变量之间辅助回归方 程的样本决定系数。
10/14/2018
四、多重共线性评价:必定不好吗?
• 根据不同的研究目地加以选择:
• 目的一:预测因变量的均值,即使存在多重共线 性,只要模型中的共线性一直存在下去,并且具 有较高的解释能力(判定系数较大) • 目的二:除了要求进行预测,还要估计模型参数。 则严重的共线性存在就不好
概念:方差膨胀因子
根据P76第四章有:
Var (b2 ) Var (b3 )
1 VIF 2 1 R2
R2增加
x 1 R
2 2i
2
2 2
2
x
2 2i
VIF
x 1 R
2 3i
2
2 2
2
x
2 3i
VIF
b2和b3的方差(或标准差)增加(或膨胀)
这是共线性的典型特征 首先,检验多重共线性 是否存在(1)(2)
三、多重共线性的诊断(8.5)
2、对两个解释变量的模型,采用简单相关系数法
求出X1与X2的简单相关系数r,若|r|接近1,则说 明两变量存在较强的多重共线性。 3、对多个解释变量的模型,检查偏相关系数。
计算这些解释变量两两之间的相关系数,如果有些 相关系数很高(如超过0.8),则可能认为存在较为严 重的共线性。
其基本假设之一是解释变量是互相独立的。
如果某两个或多个解释变量之间出现了相 关性,则称为多重共线性(Multicollinearity)。 1、完全多重共线性 2、近似(不完全)多重共线性
完全共线性的情况 并不多见,一般出 现的是在一定程度 上的共线性,即近 似共线性。
1、解释变量间存在完全共线性(perfect multicollinearity)
基本假定 误差项之间不相关
第八章 多重共线性
Multi-Collinearity
• 一、多重共线性的性质
• 二、多重共线性的实际后果
• 三、多重共线性的诊断
• 四、克服多重共线性的方法 • 五、案例
一、多重共线性的性质(8.1-8.2)
对于模型
Yi=B0+B1X1i+B2X2i+…+BkXki+μi i=1,2,…,n
但这不代表任何一个样本估计值的性质(如方差最 小等)
参数估计值的方差与标准差变大 容易使通过样本计算的t值小于临界值, 误导作出参数为0的推断,最终得出t检验 结果与实际不符
可能将重要的解释变量排除在模型之外
多重共线性本质上是一个样本(回归)现象。即使 在总体回归方程中解释变量X之间不是线性相关的, 但在某个样本中,解释变量X之间可能线性相关.
i=1,2,…,n
OLS 估计量仍是最优线性无偏估计量 其中 ci不全为0,vi为随机误差项
完全多重共线性和不完全多重共线性:举例 • 完全多重共线性模型: X3=300-2X2 R2=1, 且相关系数r=1 (模型8-3) 两个变量之间存在精确的线性关系 • 不完全多重共线性模型 X4=299.92-2.0055X2+e (模型8-9) R2=0.9770, 且相关系数r=-0.9884 两个变量之间存在不精确的线性关系,即存在 近似的线性关系.
如果存在c1X1i+c2X2i+…+ckXki=0 其中: ci不全为0
i=1,2,…,n
不可能获得所有参数的唯一估计值及根据样本进行任何 统计推断。 2、近似(不完全、高度)共线性 (near/imperfect/high multicollinearity)
如果存在 c1X1i+c2X2i+…+ckXki+vi=0
5、变量变换
名义变量变为实际变量、采用变量的差分形式
本章重点复习: 8.1~8.12; 8.14~8.18、8.20
人有了知识,就会具备各种分析能力, 明辨是非的能力。 所以我们要勤恳读书,广泛阅读, 古人说“书中自有黄金屋。 ”通过阅读科技书籍,我们能丰富知识, 培养逻辑思维能力; 通过阅读文学作品,我们能提高文学鉴赏水平, 培养文学情趣; 通过阅读报刊,我们能增长见识,扩大自己的知识面。 有许多书籍还能培养我们的道德情操, 给我们巨大的精神力量, 鼓舞我们前进。
Fj
RSS j . / 样本量-待估参数个数
ESS j . / 解释变量个数
2 1R j. / df RSS
R j . / df ESS
2
若拒绝原假设则说明Xj与其他解释变量之间存在显著的线性关系。
4、从属回归或辅助回归(判定系数检验法) Rj•2:第j个解释变量对其他解释变量的回归方程的判定系数 若存在较强的共线性 (1- Rj•2 )较小 Rj•2较大且接近于1 从而Fj的值较大。
10/14/2018
注意:
除非是完全共线性,多重共线性并不意味 着任何基本假设的违背; 因此,即使出现较高程度的多重共线性, OLS估计量仍具有线性性等良好的统计性质。 问题在于,即使OLS法仍是最好的估计方法, 它却不是“完美的”,尤其是在统计推断上无 法给出真正有用的信息。
存在不完全多重共线性时 OLS估计量仍是最优线性无偏估计量( BLUE). (即不违背前面第四章所学过的任何基本假定)
但是,这一标准并不可靠,有时候,两两相关系数 可能较低,但仍可能存在共线性。
4、从属回归或辅助回归(判定系数检验法)
进一步确定哪些变量引起的
Step1:使模型中每一个解释变量分别以其余解释变量为 解释变量进行回归(这些回归称为从属回归或辅助回归 Xji=1X1i+2X2i+LXLi Ste:2:首先观察这些辅助回归相应的拟合优度(或判定系 数)的大小;然后对这些辅助回归进行F检验H0:Rj.2=0
第二部分
实践中的回归分析
基本假定违背:不满足基本假定的情况。
(1)模型设定有偏误;所选模型是正确设定的
基本假定 所选模型是正确设定的
(2)解释变量之间存在多重共线性;
基本假定 解释变量之间不存在完全线性关系
(3)随机误差项序列存在异方差性;
基本假定 误差项方差为常数
(4)随机误差项序列存在序列相关性。
根据拟合优度的变化决定新引入的变量是否独立
若拟合优度变化显著,则说明新引入的变量是一个 独立解释变量; 若拟合优度变化很不显著,则说明新引入的变量与 其它变量之间存在共线性关系
五、克服多重共线性的方法
2、获取额外的数据或新的样本
增加样本可改善共线性问题,但有困难
3、重新考虑模型
4、参数的先验信息
然先验信息难以获得,且其准确性易遭质疑
(2)估计多重共线性的范围,即判断哪些变量之间存在 共线性。
注意:
(1)没有度量多重共线性的单一方法;
(2)具有的是一些经验法则,即是在具体应用中能够提
供判断存在多重共线性的一些线索。
三、多重共线性的诊断
1、对多个解释变量的模型,采用综合统计检验法 若 在OLS法下:R2与F值较大,但t检验值较小,说 明各解释变量对Y的联合线性作用显著,但各解释 变量间存在共线性而使得它们对Y的独立作用不能 分辨,故t检验不显著。 R2值较高,但解释变量t值统计显著的不多。
(3)样本资料的限制
由于完全符合理论模型所要求的样本数据较难 收集单线性模型,往往存在 多重共线性。
截面数据样本:问题不那么严重,但多重共线 性仍然是存在的。
三、多重共线性的诊断(8.5)
任务:
(1)检验多重共线性是否存在及度量共线性的程度;
(1)经济变量相关的共同趋势
时间序列样本:经济繁荣时期,各基本经济 变量(收入、消费、投资、价格)都趋于增长; 衰退时期,又同时趋于下降。
横截面数据:生产函数中,资本投入与劳动 力投入往往出现高度相关情况,大企业二者都大, 小企业二者都小。
(2)滞后变量的引入 在经济计量模型中,往往需要引入滞后 经济变量来反映真实的经济关系。 例如,消费=f(当期收入, 前期收入) Y=f(Xi,Xi-1) 显然,两期收入间有较强的线性相关性。
多重共线性使参数估计值的方差增大,1/(1-R2) 为方差膨胀因子(Variance Inflation Factor, VIF)
当完全不共线时, R2 =0
当近似共线时, 0< R2 <1
VIF 1,
二、多重共线性的实际后果(8.4)
1、OLS估计量的方差和标准误较大。 2、置信区间变宽。 3、t值不显著。
由于标准误较大,故总体参数的置信区间就变宽了。
由于标准误变大,所以t值变小,零假设易被接受。 变量间作用抵消。
4、R2值较高,但t值并不都是显著的。
5、OLS估计量及其标准误对数据的微小变化非常敏感。
6、回归系数的符号有误。
不能通过经济意义的检验。
7、难以评估各个解释变量对ESS或R2的贡献。
补充:产生多重共线性的主要原因(了解)