第5讲多重共线性

合集下载

多重共线性

解决方法
解决方法
（1）排除引起共线性的变量找出引起多重共线性的解释变量，将它排除出去，以逐步回归法得到最广泛的应用。（2）差分法时间序列数据、线性模型：将原模型变换为差分模型。（3）减小参数估计量的方差：岭回归法（Ridge Regression）。（4）简单相关系数检验法
谢谢观看
简介
简介
对线性回归模型基本假设之一是自变量，之间不存在严格的线性关系。如不然，则会对回归参数估计带来严重影响。为了说明这一点，首先来计算线性回归模型参数的 LS估计的均方误差。为此。重写线性回归模型的矩阵形式为其中服从多元正态分布，设计矩阵 X是的，且秩为 p。这时，参数的 LS估计为，而回归系数的 LS估计为。注意到由此获得的 LS估计是无偏的，于是估计的均方误差为其中是的特征根。显然，如果至少有一个特征根非常接近于零，则就很大，也就不再是的一个好的估计。由线性代数的理论知道，若矩阵的某个特质根接近零，就意味着矩阵 X的列向量之间存在近似线性关系。如果存在一组不全为零的数，使得则称线性回归模型存在完全共线性；如果还存在随机误差 v，满足，使得则称线性回归模型存在非完全共线性。如果线性回归模型存在完全共线性，则回归系数的 LS估计不存在，因此，在线性回归分析中所谈的共线性主要是非完全共线性，也称为复共线性。判断复共线性及其严重程度的方法主要有特征分析法(analysis of eigenvalue)，条件数法 (conditional numbers)和方差扩大因子法(variance inflation factor)。
产生原因
产生原因
主要有3个方面：（1）经济变量相关的共同趋势（2）滞后变量的引入（3）样本资料的限制
影响
影响

第五章多重共线性(计量经济学,南开大学)

例如，为了估计汽车需求的价格弹性和收入弹性，得到销售量、平均价格、消费者收入的时间序列数据。设定回归式：
ln(Yt ) 1 2 ln P t 3 ln I t ut
由于在时间序列数据中价格Pt、收入It 一般都具有高度共线的趋势。因此，直接估计上面的回归式将存在问题。由于在同一式点上，价格与收入的相关程度不高，可以先利用截面数据估计出收入弹性，再利用这一估计结果修改原回归式，变 ˆ 为： 3
R 2 /(k 1) F ~ F (k 1, n k ) 2 (1 R ) /(n k )
可以采用类似的方法检验：
F
R2 ) j /( k 1 (1 R j ) /(n k 1)
2
~ F (k 1, n k )
选择显著水平α ，计算F 统计量的值，与F分布表中的临界值进行比较，若F检验值小于临界值，则多重共线性不显著，反之，则多重共线性显著。
第三节多重共线性的探查和解决
一、多重共线性的探查由于多重共线性使一种普遍现象，而多重共线性的程度影响了参数估计结果，因此我们关心的是共线性的程度，而不是共线性是否存在。
在双边量回归模型中，可以直接对解释变量的相关系数进行显著性检验，以确定线性相关的程度（此时相关系数的平方等于样本决定系数）。而对于多于两个结束变量的回归模型，则不能利用俩俩相关系数来检验。对于有多个变量的回归模型，可以采用辅助回归的方法，分别以k-1个解释变量中的第i个对其他变量进行回归，可得到k-2个回归方程的判定系数： R22，R32，…，Rk2。假定这些判定系数中Rj2最大且接近1，则变量Xj 与其他解释变量中的一个或多个有较高相关程度，因此回归方程出现高度多重共线性。可以进行F 检验确定其显著性：根据第三章的结果，检验R2显著性的F检验值为：

什么是多重共线性如何进行多重共线性的检验

什么是多重共线性如何进行多重共线性的检验多重共线性是指在统计模型中，独立变量之间存在高度相关性或者线性依赖关系，从而给模型的解释和结果带来不确定性。

在回归分析中，多重共线性可能导致系数估计不准确、标准误差过大、模型的解释变得复杂等问题。

因此，对于多重共线性的检验和处理是非常重要的。

一、多重共线性的检验多重共线性的检验可以通过以下几种方式进行：1. 相关系数矩阵：可以通过计算独立变量之间的相关系数，判断它们之间的关系强度。

当相关系数超过0.8或-0.8时，可以视为存在高度相关性，即可能存在多重共线性问题。

2. 方差扩大因子（VIF）：VIF是用来检验自变量之间是否存在共线性的指标。

计算每一个自变量的VIF值，当VIF值大于10或者更高时，可以视为存在多重共线性。

3. 条件数（Condition index）：条件数也是一种用来检验多重共线性的指标。

它度量了回归矩阵的奇异性或者相对不稳定性。

当条件数超过30时，可以视为存在多重共线性。

4. 特征值（Eigenvalues）：通过计算特征值，可以判断回归矩阵的奇异性。

如果存在特征值接近于零的情况，可能存在多重共线性。

以上是常用的多重共线性检验方法，可以根据实际情况选择合适的方法进行检验。

二、多重共线性的处理在检测到存在多重共线性问题后，可以采取以下几种方式进行处理：1. 去除相关性强的变量：在存在高度相关变量的情况下，可以选择去除其中一个或多个相关性较强的变量。

2. 聚合相关变量：将相关性强的变量进行加权平均，得到一个新的变量来替代原来的变量。

3. 主成分分析（PCA）：主成分分析是一种降维技术，可以将相关性强的多个变量合并成为一个或多个无关的主成分。

4. 岭回归（Ridge Regression）：岭回归是一种缓解多重共线性的方法，通过加入一个正则化项，来使得共线性变量的系数估计更加稳定。

5. Lasso回归（Lasso Regression）：Lasso回归也是一种缓解多重共线性的方法，通过对系数进行稀疏化，来选择重要的变量。

多重共线性(统计累赘)的概念、特征及其测量方式和处理方式

试述多重共线性（统计累赘）的概念、特征及其测量方式和处理方式。

1、概念多重共线性是指自变量之间存在线性相关关。

倘若其中两个自变项的关系特别强，则在相互控制后就会使每者的效果减弱，而其他的变相的效果就会因此而增大。

2、特征3、产生原因产生多重相关性的原因主要包括四方面。

一是没有足够多的样本数据; 二是选取的自变量之间客观上就有共线性的关系; 还可能由其它因素导致, 如数据采集所用的方法, 模型设定, 一个过度决定的模型等。

但多数研究者认为共线性本质上是由于样本数据不足引起的。

4、测量方式（1）经验式的诊断方法通过观察,得到一些多重相关性严重存在的迹象。

①在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。

②回归系数的代数符号与专业知识或一般经验相反;或者该自变量与因变量的简单相关系数符号相反。

③对重要自变量的回归系数进行t 检验,其结果不显著。

特别是当F 检验能在高精度下通过,测定系数R 2的值也很大,但自变量的t 检验却全都不显著,这时多重相关性的可能将会很大。

④如果增加或删除一个变量,或者增加或删除一个观测值,回归系数发生了明显的变化。

⑤重要自变量的回归系数置信区别明显过大。

⑥在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。

⑦对于一般的观测数据,如果样本点的个数过少,比如接近于变量的个数或者少于变量的个数,样本数据中的多重相关性就会经常存在。

（2）统计检验方法共线性的诊断方法是基于对自变量的观测数据构成的矩阵X ’X 进行分析,使用各种反映自变量间相关性的指标。

共线性诊断常用的统计量有方差膨胀因子VIF 或容限TOL 、条件指数和方差比例等。

方差膨胀因子VIF 是指回归系数的估计量由于自变量的共线性使其方差增加的一个相对度量。

对于第i 个回归系数,它的方差膨胀因子定义为：VIF=1/1-R 2=1/TOL i 其中R2i 是自变量Xi 对模型中其余自变量线性回归模型的R 平方。

第五章多重共线性(计量经济学-北京大学,岳昌君)

4
§2 多重共线性的来源
一、解释变量受同一因素的影响时间序列数据： 1、经济发展;2、政治事件 3、偶然事件;4、时间趋势二、解释变量中含有当期和滞后变量 I t 1 2 rt 3Yt 4Yt 1 ut Y2 Y3 Y1 , Yn ; Y n Y1 Y2 有多重共线性。 Yn 1
5
§3 多重共线性的影响
一、完全共线性 ˆ X Y ˆ无唯一解 ( X X ) ˆ 的方差是无穷大。 i
6
二、“不完全”多重共线性
ˆ的解不稳定。 ˆ 的方差非常大。 1、 i ˆ 2.8 ˆ 1 1 0.9 2 2 例如： 0.9 1 ˆ 2.9 ˆ 2 3 3 ˆ 2.8 ˆ 3.5678 0.99 1 2 2 0.99 ˆ ˆ 1 2 . 9 6 . 4322 3 3 ˆ 2.8 ˆ 40 .5743 0.999 1 2 2 0.999 2.9 ˆ ˆ 1 51 . 4257 3 3
观察结果（共线性诊断）：1、最大条件指数 37.1>30，说明中等相关；2、与最大条件指数在一行的4个变量的方差比例都大于0.5，说明这4个变量就是一个具有中等相关的变量集。
14
五、F检验
例如：X2，X3，X4相互回归
1、 X2—X3，X4；若F >F ，则有多重共线性；否则的话，就没有。 2、 X3—X2，X4；若F >F ，则有多重共线性；否则的话，就没有。
t 1 t t 1 t

第五讲-多重共线性、异方差、自相关

根据理论和经验分析，影响粮食生产（Y）的主要因素有：
农业化肥施用量（X1）；粮食播种面积(X2)
成灾面积(X3);
农业机械总动力(X4);
农业劳动力(X5)
已知中国粮食生产的相关数据，建立中国粮食生产函数：
Y=0+1 X1 +2 X2 +3 X3 +4 X4 +5 X5 +
调用数据库E:\博士计量课程软件应用\multi
y (1 2 )x1
这时，只能确定综合参数1+2的估计值：
一个方程确定两个未知数，有无穷多个解。
2、近似共线性下OLS估计量非有效
近似共线性下，可以得到OLS参数估计量，但参数估计量方差的表达式为 Cov(βˆ ) 2 (XX)1
由于(X X )1 0 ，引起主对角线元素 (X X )1较大，使参数估计值的方差增大，OLS参数估计量非有效。
X2 0.01
1.00 -0.45 -0.04 0.18
X3 0.64 -0.45 1.00 0.69 0.36
X4 0.96 -0.04 0.69 1.00 0.45
X5 0.55
0.18 0.36 0.45 1.00
❖ 发现： X1与X4间存在高度相关性。
3、找出最简单的回归形式
分别作Y与X1， X3 ，X2，X4，X5间的回归：
C
X1 X2 X3
X4
X5 R 2
DW
Y=f(X1)
30868 4.23
0.8852 1.56
t值
25.58 11.49
Y=f(X1,X2)
-43871 4.65 0.67
0.9558 2.01
t值

多重共线性资料

• 完全多重共线性容易发现，不完全多重共线性具有隐弊性，客易造成严重后果，常常需要检验不完全多重共线性。
直接观察回归结果
• 拟合优度R²很大(一般大于0.8），但模型全部或部分参数估计值不显著(t值小)。
• 参数估计量的显著性与经济理论不符。 • 模型新增变量后，拟合优度增加，但原有参数估计
7.356574
1988
14.79707
29.50232
8.951532
1989
15.38405
30.6203
8.071457
1990
17.27538
34.60292
9.852538
• . reg Y x1 x2
• Source | SS df MS
Number of obs = 21
• -------------+------------------------------
97
24
120
129
30
150
152
样本向量X2与X3*的相关系数为0.9959
进口额yt
国内产值x1t
存货额x2t
国内消费x3t
15.9
149.3
4.2
16.4
19.0
┇
108.1
直接回归得：
Yˆt 10.1300.051X1t 0.587X2t 0.287X3t R2 0.992
国内产值与进口反额关有系相，显然不济符含合义经。
例如数据：1.00
11.00
100
2.00
19.00
80
3.00
28.00
4.00
42.00
60
5.00

计量经济学之多重共线性

计量经济学之多重共线性引言多重共线性是计量经济学中一个重要的概念，在经济学研究中扮演着重要的角色。

在本文中，我们将深入探讨多重共线性的概念、原因和影响，并介绍一些常见的解决方案和应对方法。

什么是多重共线性？多重共线性是指在回归分析中，自变量之间存在高度相关性的情况。

具体来说，多重共线性指的是自变量之间线性相关性较高，可能导致回归分析的结果不准确或难以解释。

多重共线性的原因多重共线性的产生有多种原因，以下是一些常见的原因：1.样本选择偏倚：当样本中存在特定的特征或者数据的选择方式导致一些变量的相关性增强。

2.变量的定义重复：有些变量可能在定义上重复，导致它们之间存在高度相关性。

3.缺少重要变量：当回归模型中存在遗漏的重要变量时，其他变量可能会代替这些遗漏的变量，导致多重共线性。

4.数据测量误差：测量误差也可能导致自变量之间存在高度相关性。

多重共线性的影响多重共线性可能会对回归模型产生一系列的问题和影响：1.估计系数不准确：多重共线性会导致回归系数的估计不准确，使得对自变量的解释变得困难。

2.系数符号相反：多重共线性可能导致估计系数的符号与理论预期相反。

3.误差项的方差增加：多重共线性会导致误差项的方差增加，从而降低了模型的精确度。

4.解释力度减弱：多重共线性会降低模型的解释力度，使得我们难以解释模型的结果。

解决多重共线性的方法针对多重共线性问题，我们可以采取以下方法来解决：1.增大样本量：增大样本量可以降低变量之间的相关性，从而减轻多重共线性的影响。

2.删除相关变量：通过检验变量之间的相关性，删除相关性较高的变量，可以减轻多重共线性的程度。

3.主成分分析：主成分分析是一种降维的方法，可以将相关性较高的变量合并为一个主成分，从而避免了多重共线性的问题。

4.增加惩罚项：在回归模型中增加惩罚项，如岭回归或lasso回归，可以减轻多重共线性的影响。

5.使用时间序列数据：对于存在多重共线性的房地产数据等时间序列数据，可以使用时间序列模型来避免多重共线性的问题。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

特例：特例：
x3i = λ x2i + vi , λ ≠ 0, 并且∑ x2i vi = 0
即使总体中各X变量没有线性关系，但获得的样本数据中即使总体中各变量没有线性关系，但获得的样本数据中X 变量没有线性关系变量之间却可能存在高度的共线性，因此，变量之间却可能存在高度的共线性，因此，多重共线性本质上是一种样本现象。质上是一种样本现象。
School of Management and Economics, 2010
第五讲多重共线性
出现多重共线性时的估计问题
不完全多重共线性对预测的影响
如果回归分析的唯一目的是预测，如果回归分析的唯一目的是预测，而不必关注参数估计的可靠性，计的可靠性，并且如果不完全共线性的结构在样本和未来都保持一致，未来都保持一致，那么不完全多重共线性不是一个严重的问题，因为预测只关心模型是否捕捉到了X对的重的问题，因为预测只关心模型是否捕捉到了对Y的解释能力，并且拟合优度越高（当然过度拟合除外），解释能力，并且拟合优度越高（当然过度拟合除外），预测越准。预测越准。如果不完全共线性的结构在未来发生变化，如果不完全共线性的结构在未来发生变化，则预测是冒险的。冒险的。
第五讲多重共线性
出现多重共线性时的估计问题
为什么要假设无多重共线性？为什么要假设无多重共线性？
如果是完全多重共线性
若矩阵 X ′ 的逆不存在，则下面的方程没有唯一解 X 的逆不存在，
X ′X β = X ′y
完全多重共线性只是一种极端的隐患，更常见完全多重共线性只是一种极端的隐患，的是出现不完全的多重共线性。的是出现不完全的多重共线性。
第五讲多重共线性
出现多重共线性时的估计问题
不完全多重共线性的特征：不完全多重共线性的特征：
值会降低，倾向于统计上不显著；偏回归系数的 t 值会降低，倾向于统计上不显著；估计量（偏回归系数）对模型设定的变化非常敏感。估计量（偏回归系数）对模型设定的变化非常敏感。估计系数可能出现非预期的符号或有难以置信的数值非预期的符号或有难以置信的数值。估计系数可能出现非预期的符号或有难以置信的数值。虽然系数不显著，但总的拟合优度却可能非常高；虽然系数不显著，但总的拟合优度R2却可能非常高； bk βk bk = tk = 值都不显著，可能出现每个偏回归系数的 t 值都不显著，但回归方 se(bk ) var(bk ) 程的F值却很显著值却很显著。程的值却很显著。
……
School of Management and Economics, 2010
第五讲多重共线性
多重共线性的补救措施
无为而治：无为而治：什么也不做
剔除本应包含的解释变量会导致设定偏误。剔除本应包含的解释变量会导致设定偏误。与遗漏变量造成的有偏估计相比较，较低的t统计值（显著性）量造成的有偏估计相比较，较低的统计值（显著性）统计值似乎只是一个次要的问题。似乎只是一个次要的问题。只有当后果很严重（估计系数出现非预期的符号），只有当后果很严重（估计系数出现非预期的符号），才应该采取其他补救措施（参见教材P142：7.5.1 为什才应该采取其他补救措施（参见教材：么通常不必对多重共线性做任何调整）。么通常不必对多重共线性做任何调整）。
School of Management and Economics, 2010
一个不完全多重共线性的例子（一个不完全多重共线性的例子（data_5.1））
不显著
很大
高度显著
第五讲多重共线性
多重共线性的侦察
多重共线性的侦察
多重共线性是一个程度问题而不是有无的问题；多重共线性是一个程度问题而不是有无的问题；侦破多重共线性的方法一般基于一些经验指标，侦破多重共线性的方法一般基于一些经验指标，目前还没有一个被普遍接受的真正意义的检验多重共线性的统计量。的统计量。
School of Management and Economics, 2010
第五讲多重共线性
出现多重共线性时的估计问题
如果是不完全多重共线性
矩阵 X ′ 的逆存在，则下面的方程有唯一解 X 的逆存在，
X ′X β = X ′y
且解为：且解为：
β = ( X ′ )1 X ′ X y
只要不是完全多重共线性，只要不是完全多重共线性，用OLS仍可得到系数的估仍可得到系数的估计量及其标准差，并且仍是无偏；尽管无偏，计量及其标准差，并且仍是无偏；尽管无偏，但估计量的标准差非常大，即估计的精度很小，量的标准差非常大，即估计的精度很小，这是高度不完全）多重共线性所带来的理论上的唯一影响。（不完全）多重共线性所带来的理论上的唯一影响。
第五讲多重共线性
多重共线性的补救措施
剔除支配变量（）：与被解释剔除支配变量（dominant variable）：与被解释）：变量高度相关，变量高度相关，以致于完全掩盖了方程中所有其他变量的影响，相对于解释变量的替代变量。他变量的影响，相对于解释变量的替代变量。剔除多余的变量，剔除多余的变量，潜在的理论假设作为剔除的主要依据。要依据。增加样本容量
School of Management and Economics, 2010
第五讲多重共线性
回顾
在这些基本假设下，最小二乘估计量是：在这些基本假设下，最小二乘估计量是：
= ( X ′ )1 X ′ β X y
E[ β ] = β
] = σ 2 ( X ′X ) 1 var[ β p lim β = β
第五讲多重共线性
复习
什么是稳健性检验？什么是稳健性检验？能省略常数项吗？能省略常数项吗？在回归方程中，在回归方程中，是否需要剔除所有不显著的解释变量？变量？
School of Management and Economics, 2010
第五讲多重共线性
主要内容
回顾：回顾：经典回归模型的基本假设多重共线性的性质出现多重共线性时的估计问题多重共线性的来源和侦察多重共线性的补救措施
2
School of Management and Economics, 2010
第五讲多重共线性
回顾
t 检验（偏回归系数检验）: 检验（偏回归系数检验） βk βk
tk = s S
2 kk
~ t[ n K ]
F 检验（线性约束检验）: 检验（线性约束检验）
′ (e*e* e′e) J F= e′e /(n K)
完全多重共线性
λ1 X1 + λ2 X 2 +…λk X k = 0 λ1，λ2， λk为常数但不同时为0 …
不完全多重共线性
λ1 X1 + λ2 X 2 +…λk X k + vi = 0
vi是随机误差项，衡量了X变量之间高度但非完全的相关
School of Management and Economics, 2010
Ft = β 0 + β1 PFt + β 2 PBt + β3 ln Ydt + β 4 N t + β 5 Pt + ε t
虚拟变量：虚拟变量：1966年以年以后取1，之前取0。后取，之前取。
哪个是主要关心的解释变量？哪些是控制变量？哪个是主要关心的解释变量？哪些是控制变量？
School of Management and Economics, 2010
School of Management and Economics, 2010
X 的逆存在。假定2：数据矩阵列满秩列满秩，假定：数据矩阵X列满秩，即矩阵 X ′ 的逆存在。
多重共线性
第五讲多重共线性
多重共线性的定义
多重共线性（多重共线性（multicollinearity）的定义：）的定义：一个回归模型中的一些或全部解释变量之间存在一种完全或不完全的线性关系。在一种完全或不完全的线性关系。
School of Management and Economics, 2010
第五讲多重共线性
多重共线性的补救措施
变换解释变量
一阶差分（时间序列分析）一阶差分（时间序列分析）构造一个多重共线性的组合
主成分分析法（principal components）主成分分析法（）因子分析法（因子分析法（factor analysis））
School of Management and Economics, 2010
第五讲多重共线性
处理多重共线性的一个例子（P144）处理多重共线性的一个例子（P144）
教皇的开戒（可以吃肉）教皇的开戒（可以吃肉）决定会影响鱼的人均消费量吗？费量吗？
1966年，教皇允许天主教徒除星期五斋日之外的日期年可以吃肉（鱼不算肉）。）。这一决定可能导致鱼的消费可以吃肉（鱼不算肉）。这一决定可能导致鱼的消费需求下降。需求下降。教皇的决定对鱼的消费会有显著影响吗？怎样检验？教皇的决定对鱼的消费会有显著影响吗？怎样检验？要研究这个问题，需要收集哪些数据？只需要1966年要研究这个问题，需要收集哪些数据？只需要年前后鱼的人均的消费数据吗？前后鱼的人均的消费数据吗？除了教皇的决定，还有哪些因素会影响对鱼的消费？除了教皇的决定，还有哪些因素会影响对鱼的消费？这些因素的作用是什么？这些因素的作用是什么？
第五讲多重共线性
计量经济学
Econometrics
任课老师：任课老师：李平
School of Management and Economics, 2010
第五讲多重共线性
第五讲多重共线性教材第7 （教材第7章）
School of Management and Economics, 2010