多重共线性问题
经济统计学中的多重共线性问题

经济统计学中的多重共线性问题在经济统计学中,多重共线性是一个常见且重要的问题。
它指的是在经济模型中,解释变量之间存在高度相关性,导致模型的稳定性和可靠性受到影响。
本文将探讨多重共线性问题的原因、影响以及解决方法。
一、多重共线性问题的原因多重共线性问题的产生通常有两个主要原因。
首先,解释变量之间存在线性关系。
例如,在研究经济增长时,我们可能会使用国内生产总值(GDP)、人均收入和就业率等变量作为解释变量。
然而,这些变量之间可能存在高度相关性,比如GDP和人均收入之间往往呈正相关关系。
这种线性关系会导致多重共线性问题。
其次,数据的选择和收集方式也可能导致多重共线性问题。
在进行经济统计研究时,我们需要收集大量的数据,以支持我们的模型分析。
然而,由于数据的可获得性和可靠性等因素,我们可能只能选择一部分相关的变量进行研究。
这样一来,我们就有可能忽略了一些重要的解释变量,从而导致多重共线性问题的出现。
二、多重共线性问题的影响多重共线性问题对经济统计分析的结果产生了一系列的影响。
首先,它会导致模型的稳定性下降。
由于解释变量之间存在高度相关性,模型的回归系数估计值会变得不稳定。
这意味着即使微小的数据变动,也可能导致回归系数的巨大变化,从而影响对模型的解释和预测能力。
其次,多重共线性问题还会导致模型的可靠性下降。
由于解释变量之间存在高度相关性,模型的回归系数估计值可能变得不准确。
这意味着我们无法准确地判断解释变量对因变量的影响程度。
如果我们在政策制定或决策分析中依赖于这些模型结果,就可能导致错误的判断和决策。
三、解决多重共线性问题的方法针对多重共线性问题,经济统计学提出了一些解决方法。
首先,我们可以通过增加样本量来减轻多重共线性问题。
更大的样本量会提供更多的数据点,从而减少解释变量之间的相关性。
这样一来,模型的稳定性和可靠性都会有所提高。
其次,我们可以通过引入新的解释变量来解决多重共线性问题。
这些新的解释变量应该与原有的解释变量有一定的相关性,但又不会导致高度相关。
多重共线性习题及答案

多重共线性一、单项选择题1、当模型存在严重的多重共线性时,OLS估计量将不具备()A、线性B、无偏性C、有效性D、一致性2、经验认为某个解释与其他解释变量间多重共线性严重的情况是这个解释变量的VIF()A、大于B、小于C、大于5D、小于53、模型中引入实际上与解释变量有关的变量,会导致参数的OLS估计量方差()A、增大B、减小C、有偏D、非有效4、对于模型y t=b0+b1x1t+b2x2t+u t,与r12=0相比,r12=0.5时,估计量的方差将是原来的()A、1倍B、1.33倍C、1.8倍D、2倍5、如果方差膨胀因子VIF=10,则什么问题是严重的()A、异方差问题B、序列相关问题C、多重共线性问题D、解释变量与随机项的相关性6、在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近于1,则表明模型中存在( )A 异方差B 序列相关C 多重共线性D 高拟合优度7、存在严重的多重共线性时,参数估计的标准差()A、变大B、变小C、无法估计D、无穷大8、完全多重共线性时,下列判断不正确的是()A、参数无法估计B、只能估计参数的线性组合C、模型的拟合程度不能判断D、可以计算模型的拟合程度二、多项选择题1、下列哪些回归分析中很可能出现多重共线性问题()A、资本投入与劳动投入两个变量同时作为生产函数的解释变量B、消费作被解释变量,收入作解释变量的消费函数C、本期收入和前期收入同时作为消费的解释变量的消费函数D、商品价格、地区、消费风俗同时作为解释变量的需求函数E、每亩施肥量、每亩施肥量的平方同时作为小麦亩产的解释变量的模型2、当模型中解释变量间存在高度的多重共线性时()A、各个解释变量对被解释变量的影响将难以精确鉴别B、部分解释变量与随机误差项之间将高度相关C、估计量的精度将大幅度下降D、估计对于样本容量的变动将十分敏感E、模型的随机误差项也将序列相关3、下述统计量可以用来检验多重共线性的严重性()A、相关系数B、DW值C、方差膨胀因子D、特征值E、自相关系数4、多重共线性产生的原因主要有()A、经济变量之间往往存在同方向的变化趋势B、经济变量之间往往存在着密切的关联C、在模型中采用滞后变量也容易产生多重共线性D、在建模过程中由于解释变量选择不当,引起了变量之间的多重共线性E、以上都正确5、多重共线性的解决方法主要有()A、保留重要的解释变量,去掉次要的或替代的解释变量B、利用先验信息改变参数的约束形式C、变换模型的形式D、综合使用时序数据与截面数据E、逐步回归法以及增加样本容量6、关于多重共线性,判断错误的有()A、解释变量两两不相关,则不存在多重共线性B、所有的t检验都不显著,则说明模型总体是不显著的C、有多重共线性的计量经济模型没有应用的意义D、存在严重的多重共线性的模型不能用于结构分析7、模型存在完全多重共线性时,下列判断正确的是()A、参数无法估计B、只能估计参数的线性组合C、模型的判定系数为0D、模型的判定系数为1三、简述1、什么是多重共线性?产生多重共线性的原因是什么?2、什么是完全多重共线性?什么是不完全多重共线性?3、完全多重共线性对OLS估计量的影响有哪些?4、不完全多重共线性对OLS估计量的影响有哪些?5、从哪些症状中可以判断可能存在多重共线性?6、什么是方差膨胀因子检验法?四、判断(1)如果简单相关系数检测法证明多元回归模型的解释变量两两不相关,则可以判断解释变量间不存在多重共线性。
多重共线性问题分析

与其余解释变量之间有严重的多重共线性,且这
种多重共线性可能会过度地影响最小二乘估计。
(4)直观判断法
①当增加或剔除一个解释变量,或者改变一
个观测值时,回归参数的估计值发生较大变 化,回归方程可能存在严重的多重共线性。 ②从定性分析认为,一些重要的解释变量的 回归系数的标准误差较大,在回归方程中没 有通过显著性检验时,可初步判断可能存在 严重的多重共线性。
例 如 :
年份 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
C 1759.1 2005.4 2317.1 2604.1 2867.9 3182.5 3674.5 4589.0 5175.0 5961.2 7633.1 8523.5 9113.2 10315.9 12459.8 15682.4 20809.8 26944.5 32152.3 34854.6 36921.1 39334.4 42911.9
三、多重共线性的检验
多重共线性表现为解释变量之间具有相关关系,
所以用于多重共线性的检验方法主要是统计方法:
如判定系数检验法、逐步回归检验法等。 多重共线性检验的任务是: (1)检验多重共线性是否存在;
(2)估计多重共线性的范围,即判断哪些变量之
间存在共线性。
1、检验多重共线性是否存在
(1)对两个解释变量的模型,采用简单相关系数法
可以有效地消除原模型中的多重共线性。
一般而言,差分后变量之间的相关性要比
差分前弱得多,所以差分后的模型可能降
多重共线性问题的几种解决方法

多重共线性问题的几种解决方法在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X, X2,,,,X k中的任何一个都不能是其他解释变量的线性组合。
如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。
多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。
这里,我们总结了8个处理多重共线性问题的可用方法,大家在遇到多重共线性问题时可作参考:1、保留重要解释变量,去掉次要或可替代解释变量2、用相对数变量替代绝对数变量3、差分法4、逐步回归分析5、主成份分析6偏最小二乘回归7、岭回归8、增加样本容量这次我们主要研究逐步回归分析方法是如何处理多重共线性问题的逐步回归分析方法的基本思想是通过相关系数r、拟合优度R2和标准误差三个方面综合判断一系列回归方程的优劣,从而得到最优回归方程。
具体方法分为两步:第一步,先将被解释变量y对每个解释变量;■……J作简单回归:…厲)y = /U2)y = /(jcj对每一个回归方程进行统计检验分析(相关系数r、拟合优度R2和标准误差),并结合经济理论分析选出最优回归方程,也称为基本回归方程。
第二步,将其他解释变量逐一引入到基本回归方程中,建立一系列回归方程,根据每个新加的解释变量的标准差和复相关系数来考察其对每个回归系数的影响,一般根据如下标准进行分类判别:1.如果新引进的解释变量使R2得到提高,而其他参数回归系数在统计上和经济理论上仍然合理,则认为这个新引入的变量对回归模型是有利的,可以作为解释变量予以保留。
2.如果新引进的解释变量对R2改进不明显,对其他回归系数也没有多大影响,则不必保留在回归模型中。
3.如果新引进的解释变量不仅改变了R2,而且对其他回归系数的数值或符号具有明显影响,则认为该解释变量为不利变量,引进后会使回归模型出现多重共线性问题。
多重共线性解决方法

多重共线性解决方法
多重共线性是指在回归模型中,自变量之间存在高度相关性的情况,这会导致模型的解释能力下降,系数估计不准确,模型的稳定性受到影响。
以下是一些解决多重共线性问题的方法:
1.增加样本量:通过增加样本量可以减少模型中的抽样误差,从而减轻多重共线性的影响。
2.删除冗余变量:通过剔除高度相关的自变量,可以降低共线性的程度。
可以使用相关性矩阵或者变量膨胀因子(VIF)来判断哪些自变量之间存在高相关性,并选择保留一个或几个相关性较为弱的变量。
3.主成分分析(PCA):主成分分析可以将高度相关的自变量转换成一组无关的主成分,从而降低共线性的影响。
可以选择保留其中的几个主成分作为新的自变量,代替原始的自变量。
4.岭回归(Ridge Regression):岭回归是在普通最小二乘法的基础上加入一个正则化项,通过缩小系数估计的幅度,减少共线性对系数估计的影响。
岭回归可以通过交叉验证选择合适的正则化参数。
5.套索回归(Lasso Regression):套索回归也是在普通最小二乘法的基础上加入一个正则化项,不同的是套索回归使用L1范数作为正则化项,可以将一些系
数估计缩减为零,从而实现变量选择的效果。
6.弹性网回归(Elastic Net Regression):弹性网回归是岭回归和套索回归的结合,同时使用L1和L2范数作为正则化项,可以在预测准确性和变量选择之间进行权衡。
以上方法可以根据具体问题的特点和需求选择合适的方法来解决多重共线性问题。
多重共线性问题

X 0 其中 称为“岭回归参数”,一般 1 D 是用Байду номын сангаас , 2 2 矩阵对角线上元素 n 和k2 X ki k 1,2,, K 构 d0 d
i
成的对角线矩阵 。
23
2 d 0 D
d12
2 dk
估计量的数学期望为:
其中ci 不全为0,vi 为随机误差项,则称为 近似共线性
multicollinearity) 或 交 互 相 关
3
8.1 问题的种类和原因
3、实际经济问题中的多重共线性
一般地,产生多重共线性的主要原因有以下三个方面: (1)经济变量相关的共同趋势 时间序列样本:经济繁荣时期,各基本经济变量(收入、
消费、投资、价格)都趋于增长;衰退时期,又同时趋
于下降。 横截面数据:生产函数中,资本投入与劳动力投入往往 出现高度相关情况,大企业二者都大,小企业都小。
4
8.1 问题的种类和原因
(2)滞后变量的引入
在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济 关系。 例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相关性。
7
当完全不共线时, r2 =0
当近似共线时, 0< r2 <1
多重共线性使参数估计值的方差增大,1/(1-r2)为方差扩 大因子(Variance Inflation Factor, VIF)
方差膨胀因子表
相关系数平方 方差膨胀因子 0 1 0.5 2 0.8 5 0.9 10 0.95 20 0.96 25 0.97 33 0.98 50 0.99 100 0.999 1000
1 2 ˆ var(1 ) 2 2 x1i 1 r x12i
回归分析中的多重共线性问题及解决方法(Ⅰ)

回归分析中的多重共线性问题及解决方法回归分析是统计学中常用的一种方法,用于研究自变量和因变量之间的关系。
然而,在实际应用中,我们经常会遇到多重共线性的问题,这会对回归系数的估计和模型的解释产生不良影响。
本文将就多重共线性问题及其解决方法展开探讨。
多重共线性指的是在回归模型中,自变量之间存在高度相关性的情况。
当自变量之间存在共线性时,回归系数的估计会变得不稳定,标准误差会增大,系数的显著性检验结果可能出现错误,同时模型的解释性也会受到影响。
因此,多重共线性是需要引起我们高度关注的问题。
多重共线性的存在主要有两个方面的原因。
一方面是样本误差的影响,当样本容量较小或者存在异常值时,容易导致自变量之间的相关性增强。
另一方面是自变量之间本身存在的相关性,这可能是由于自变量的选择不当或者研究对象的特性所致。
无论是哪一种原因,我们都需要采取相应的方法来解决多重共线性问题。
解决多重共线性问题的方法有多种途径,下面将分别从数据清洗、变量选择、正则化方法和主成分回归等方面进行探讨。
首先,对于数据清洗来说,我们需要对样本中的异常值进行识别和处理。
异常值的存在会扰乱自变量之间的关系,导致多重共线性的加剧。
因此,在进行回归分析之前,我们需要对数据进行严格的清洗,排除掉异常值对模型的影响。
其次,变量选择也是解决多重共线性问题的有效手段。
在回归分析中,不是所有的自变量都对因变量有显著的解释作用,因此我们可以通过逐步回归、岭回归等方法来筛选出对模型影响较大的自变量,从而减少多重共线性的影响。
另外,正则化方法也是解决多重共线性问题的重要途径。
岭回归、Lasso回归等方法可以通过对回归系数进行惩罚,来减少自变量之间的相关性对模型的影响。
这些方法在实际应用中得到了广泛的应用。
最后,主成分回归是另一种解决多重共线性的有效方法。
主成分回归通过将自变量进行主成分分解,从而减少自变量之间的相关性,提高回归模型的稳定性。
综上所述,回归分析中的多重共线性问题是一个不容忽视的难题,但是我们可以通过数据清洗、变量选择、正则化方法和主成分回归等多种手段来解决这一问题。
如何解决多重共线性问题

如何解决多重共线性问题多重共线性是统计学中常见的问题,特别是在回归分析中。
它指的是自变量之间存在高度相关性,导致回归模型的稳定性和解释能力下降。
在实际应用中,解决多重共线性问题是非常重要的,下面将探讨一些常用的方法。
1. 数据收集和预处理在解决多重共线性问题之前,首先需要对数据进行收集和预处理。
数据的收集应该尽可能地多样化和全面,以避免自变量之间的相关性。
此外,还需要对数据进行清洗和转换,以确保数据的准确性和一致性。
2. 相关性分析在回归分析中,可以通过计算自变量之间的相关系数来评估它们之间的相关性。
常用的相关系数包括皮尔逊相关系数和斯皮尔曼相关系数。
如果发现自变量之间存在高度相关性,就需要考虑解决多重共线性问题。
3. 方差膨胀因子(VIF)方差膨胀因子是用来评估自变量之间共线性程度的指标。
它的计算方法是将每个自变量作为因变量,其他自变量作为自变量进行回归分析,然后计算回归系数的标准误差。
VIF越大,表示自变量之间的共线性越强。
一般来说,VIF大于10就表明存在严重的多重共线性问题。
4. 特征选择特征选择是解决多重共线性问题的一种常用方法。
通过选择与因变量相关性较高,但与其他自变量相关性较低的自变量,可以减少共线性的影响。
常用的特征选择方法包括逐步回归、岭回归和Lasso回归等。
5. 主成分分析(PCA)主成分分析是一种降维技术,可以将多个相关自变量转化为一组无关的主成分。
通过保留主成分的前几个,可以减少自变量之间的相关性,从而解决多重共线性问题。
但需要注意的是,主成分分析会损失部分信息,可能会影响模型的解释能力。
6. 岭回归和Lasso回归岭回归和Lasso回归是一种通过引入惩罚项来解决多重共线性问题的方法。
岭回归通过在最小二乘估计中添加一个L2正则化项,可以减小回归系数的估计值,从而减少共线性的影响。
Lasso回归则通过在最小二乘估计中添加一个L1正则化项,可以使得一些回归系数变为零,从而实现变量选择的效果。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
轿车拥有量y与人均可支配收入x1散点图
轿车拥有量y与全国城镇人口x2散点图
轿车拥有量y与全国汽车产量x3散点图
轿车拥有量y与全国公路长度x4散点图
多重共线性实例3-相关性分析
从上述图像可以看到,y与x1,x2呈非线性关系, 与x3,x4 近似呈线性关系。 x1,x2,x3和x4的相关系数矩阵如下 0.983 0.9585 0.9296 1 0.983 1 0.963 0 .959 R 0.9585 0.963 1 0.955 0 . 9296 0 .959 0 .955 1 x1,x2,x3 , x4两两之间的相关系数都超过0.9,说明 xi 与x j , i, j 1,2,3,4基本线性相关,x1,x2,x3 , x4之间 存在着多重共线性关系。
多重共线性实例2-相关矩阵
多重共线性实例2-x1与x3的回归系数
多重共线性实例2
x1 , x2与x3的相关系数矩阵为 0.033 0.987 1 R 0 . 033 1 0 . 036 1 0.987 0.036 x1与x3基本线性相关,x3关于x1的一元线性 回归方程为 x3 4.963 0.73x1 x1与x3之间存在着多重共线性 。
产生多重共线性的原因
许多经济变量之间存在着相关性有着共同的变化 趋势; 在回归模型中使用滞后因变量,也可能产生多重 共线性问题。 样本数据也会引起多重共线性问题。根据回归模 型的假设,自变量是非随机变量,由于收集的数 据过窄而造成某些自变量似乎有相同或相反的变 化趋势。也即自变量即使在总体上不存在线性关 系,其样本也可能是线性相关的。
职工平均工资 农民平均收入 银行利率 消费者物价指数(Consumer Price Index) 国债利率 货币发行量(商品流通中所需的实际货币量 = 商品价格总额 / 商品流通次数 ) 储蓄额 前期消费额等
自变量的相关性产生的原因
在研究社会,经济问题时,因为问题本身 的复杂性,涉及的因素很多。在建立回归 模型时,由于研究者认识水平的局限性, 很难在众多因素中找到一组互不相关又对 因变量y有显著影响的变量。 自变量有较强相关性时,会给回归模型的 参数带来什么后果?
方差扩大因子法
对自变量作中心标准化,则XX (rij )为自变量的 相关距阵,记
-1 R =(X X ) (cij ) 1
称该距阵对角线的元素VIFj c jj为自变量x j的方差 扩大因子。 ˆ )=L c 2 , j 1, 2, 可以证明:var( j jj jj 1 c jj c jj VIFj 1 2 1 Rj , p,
多重共线性实例3-显著性检验
回归方程 ˆ 0.925.664 0.006x1 62.943x2 0.412x3 7.729x4 y 方差分析表说明在 0.05的水平下,以上回归方程是 显著的。但是对回归系数作显著性检验:t1 0.243, t 2 0.746, t3 0.811 , 均小于t 0.005 ( 13 ) 3.012。 说明x1,x2,x3对于y没有显著性。
特征根判定法(续)
l 1i X l 2i X l pi X 0, i r 1, ,p
这是p r个多重共线性关系。由此可见,X X 有多少个 特征根接近于零,X 就有多少个多重共线性关系,并且 这些多重共线性关系的系数向量就是接近于零的那些特 征根对应的特征向量。
条件数判定法
多重共线性实例3
定义变量名如下: Y: 中国私人轿车拥有量(万辆); X1:城镇居民家庭人均可支配收入(元) X2:全国城镇人口(亿人); X3:全国汽车产量(万辆); X4:全国公路长度(万公里)。
多重共线性实例3-散点图
多重共线性实例3-回归系数
多重共线性实例3-方差分析
R矩阵的条件数: 记m max{ X X的特征根} ,
m ki , i 0,1,2,, p。 i
如果k 10, 则认为x1 , x2 , , x p间不存在多重共 线性关系。 如果10 k 100 ,则认为x1 , x2 ,, x p间存在中等 程度或较强的多重共线性关系。 如果k 100 ,则认为x1 , x2 ,, x p间存在严重多重 共线性关系。
多重共线性问题及其处理
在多元回归模型中,关于多元回 归方程的解释,隐含着要求解释变 量之间无强相关性的假定,但解释 变量之间完全不相关的情形是非常 少见的。尤其是研究某个经济问题 时,涉及的自变量较多,很难找到 一组自变量,它们之间互不相关, 而且它们又都对因变量有显著影响。
例:居民消费状况-影响居民消费的因素
多重共线性实例1-相关系数
多重共线性实例1
原因是x1, x2的相关矩阵为 0.986 1 0.986 1 这个矩阵接近退化。 x1与x2之间有密切的关系。 普通的LS估计性能变坏。
多重共线性实例2
下表是1966年提出的研究法国经济问题 的一组数据。 Y: 进口总额; X1:国内总产值; X2:储存量; X3:总消费量。
多重共线性的消除
剔除一些不重要的解释变量; 增大样本容量; 岭回归方法; 主成份方法; 偏最小二乘法
案例分析
选取1998年我国31个省、市、自治区的数 据,以国际旅游外收入(百万美元)为因 变量y,以如上12个行业为自变量作多元线 性回归,数据见数据文件。
上机实例
国际旅游外汇收入是国民经济发展的重要组成部分,影响 一个国家或者地区旅游收入的因素包括自然、文化、社会、 经济、交通等多方面的因素,本例就是研究第三产业对旅 游外汇收入的影响。《中国统计年鉴》把第三产业规划分 为12个组成部分,分别为
多重共线性实例3
1985-2002年中国私人轿车拥有量以年 增长量23%,年均增长55万辆的速度飞 速增长。 考虑到目前农村家庭购买私人轿车的现象 还很少,在建立私人轿车拥有量模型时, 主要考虑以下因素(1)城镇居民家庭人 均可支配收入;(2)城镇总人口;(3) 轿车产量;(4)公路交通完善程度;(5) 轿车价格(因统计困难,略去)。
x1 农林 牧渔 服务 业
x2 地 质 水 利 管 理 业
x3 交 通 邮 电 通 信 业
x4 批 发 零 售 餐 饮 业
x5 x6 金 融 保 险 业 房 地 产 业
x7 社 会 服 务 业
x8 卫 生 体 育 福 利 业
x9 教 育 艺 术 广 播 业
x10 x11 x12 科 学 研 究 党 政 机 关 其 他 行 业
直观判定法
当增加或者删除一个自变量,或者改变一个观测值时, 回归系数的估计值发生比较大变化时; 一些重要的自变量没有通过显著性检验; 回归系数所带的正负号与定性分析的结果相违背; 自变量间的相关系数很大; 一些重要的自变量的回归系数的标准差误差很大; 只要满足上述条件之一,我们认为有可能存在严重的 多重共线性。
称各自变量之间Biblioteka 多重共线性关系。多重共线性对回归模型的影响
解释变量之间存在相关性时,即X的列向 量之间有较强的线性相关性,即解释变量 间出现严重的多重共线性。设计矩阵X将 呈病态。 用普通最小二乘法估计模型参数,往往参 数估计方差太大,回归效果不理想。
多重共线性对回归模型的影响
对线性回归模型 y X , E ( ) 0, D 2 I ˆ ( X X ) 1 X y ˆ具有一些良好的性质: 具有最小方差的线性 无偏估计;Gauss Markov 定理等.因此最小 二乘(LS )估计得到了广泛的应用 。但在处理 大型回归问题时,有时 LS估计估计很不理想, 一个重要的因素是, LS估计的性能效果与设计 矩阵X有关,当R X X接近是一个奇异矩阵时 , 即呈现所谓的“病态” 时,LS估计的性能变坏。
案例分析数据
多重共线性操作与分析过程
严重的多重共线性:方差扩大因子与容忍度
条件数判断有严重的多重共线性
多重共线性分析
说明x9与x11存在多重共线性;x1,x3,x8,x10之间存 在多重共线性;x5与x6之间存在多重共线性。
方差扩大因子法
记R 1中的对角元为r jj , j 1,2, , p, 称为方差扩大因子。若记x j 与其他p 1个变量的
多重共线性的诊断方法
• • •
•
方差扩大因子法; 特征根判定法; 条件数判定法; 直观判定法。
特征根判定法
假设X呈病态,则R X X至少有一个特征根接近于0。 不妨设后p r个特征根 r 1, r 2 , , p 0. 记l r 1,l r 2 ,,l p 为与他们对应的单位化的相互正交的 特征向量,则 Xli 0, i r 1,, p 令li (l 1i ,l 2i ,l pi ), 则有 l 1i X l 2i X l pi X 0, i r 1,, p
多重共线性实例2
多重共线性实例2-回归系数分析
y关于x1 , x2与x3的回归方程为 ˆ 10.128 0.051x1 0.587x2 0.287x3 , y
Y: 进口总额; X1:国内总产值;
其中x1的系数为负,不符合经济意义,因为 法国是原料进口国,当国内总产值增加时, 进口总额y也应该增加,所以该系数的符合 为正。其原因就是三个自变量之间存在多重 共线性。其相关矩阵如下
jj 复决定系数为R 2 , 则 r j
1 1 R2 j
, 记VIF max {r jj }
j
如果VIF 5,则认为x1 , x2 , , x p间不存在多重共线性 关系;如果5 VIF 10,则认为x1 , x2 , , x p间存在 中等程度或较强多重共线性关系; 如果VIF 10, 则认为x1 , x2 , , x p间存在严重 多重共线性关系。