第七章 多重共线性

合集下载

第七章7.0多重共线性

第七章7.0多重共线性

实际经济问题中的多重共线性
(1)经济变量相关的共同趋势
时间序列样本:经济繁荣时期,各基本经济变 量(收入、消费、投资、价格)都趋于增长; 衰退时期,又同时趋于下降。
横截面数据:生产函数中,资本投入与劳动力 投入往往出现高度相关情况,大企业二者都大, 小企业都小。
(2)滞后变量的引入 在经济计量模型中,往往需要引入滞后经济 变量来反映真实的经济关系。 (3)样本资料的限制 一般经验:
在矩阵表示的线性回归模型 Y=X+u 中,完全共线性指:秩(X)<k+1,即
1 1 X 1 X 11 X 12 X 1n X 21 X 22 X 2n X k1 X k2 X kn
中,至少有一列向量可由其他列向量(不包括第 一列)线性表出。 如:X2= X1,则X2对Y的作用可由X1代替。
如果模型被检验证明存在多重共线性,则需要 发展新的方法估计模型,最常用的方法有三类。 1、第一类方法:排除引起共线性的变量 找出引起多重共线性的解释变量,将它排除。 以逐步回归法得到最广泛的应用。 • 注意:这时,剩余解释变量参数的经济含义和 数值都发生了变化。
2、第二类方法:差分法 时间序列数据、线性模型:将原模型变换为 差分模型: Yi=1 X1i+2 X2i++k Xki+ i
当完全不共线时,
r2
=0
ˆ var(1 ) 2 / x12i
1 2 ˆ var(1 ) 2 2 x1i 1 r x12i
当近似共线时, 0< r2 <1
2
多重共线性使参数估计值的方差增大,1/(1-r2)为 方差膨胀因子(Variance Inflation Factor, VIF) 当完全共线时, r2=1,

7.1多重共线性的概念及产生原因

7.1多重共线性的概念及产生原因
第一节多重共线性的概念及产生原因第二节多重共线性的后果第三节多重共线性的检验第四节多重共线性的修正方法第五节案例分析第一节多重共线性的概念及产生原因多重共线性产生的原因对于k元线性回归模型如果模型的解释变量之间存在着较强的相关关系则称模型存在多重共线性
第七章 多重共线性
• 本章主要内容: 本章主要内容: 第一节 多重共线性的概念及产生原因 第二节 多重共线性的后果 第三节 多重共线性的检验 第四节 多重共线性的修正方法 第五节 案例分析
多重共线性有两种情况: 多重共线性有两种情况:完全多重共线性和 近似多重共线性。 近似多重共线性。
如果存在一组不全为零的数λ0 , λ1 , λ2 ,⋯ , λk,使得
λ0 + λ1 X 1i + λ2 X 2i + ⋯ + λk X ki = 0
则称模型存在完全多重共线性。 则称模型存在完全多重共线性。 完全多重共线性
(2)解释变量中含有滞后变量 ) 在计量经济学模型中, 在计量经济学模型中,往往需要引入滞后经济 变量来反映真实的经济关系。例如,以相对收入 变量来反映真实的经济关系。例如, 假说为理论假设,则居民消费C 假说为理论假设,则居民消费 t的变动不仅受当 期收入Y 的影响, 的影响, 期收入 t的影响,还受前期收入 Yt-1的影响,于 是建立以下模型: 是建立以下模型:
Ct = β 0 + β1Yt + β 2Yt −1 + ut
显然, 显然,当期收入和前期收入之间存在着较强的线 性相关性。 性相关性。
3.利用截面数据建立模型也可能出现多重共线性 利用截面数据建立模型也可能出现多重共线性 多重共线性一般与时间序列有关, 多重共线性一般与时间序列有关,但在截面 一般与时间序列有关 数据中也经常出现。例如,在生产函数中, 数据中也经常出现。例如,在生产函数中,大企 业拥有大量的劳动力和资本,小企业只有较少的 业拥有大量的劳动力和资本, 劳动力和资本, 劳动力和资本,投入的劳动量和资本量通常是高 度相关的。 度相关的。 在多元线性回归模型中, 在多元线性回归模型中,我们关心的并不是 多重共线性的有无,而是多重共线性的程度。当 多重共线性的有无,而是多重共线性的程度。 有无 程度 多重共线性程度过高时, 多重共线性程度过高时,将给最小二乘估计带来 严重的后果。 严重的后果。

多重共线性

多重共线性

第二章知多元线性回归模型参数向量的最小二乘估计量为: 1 X X X Y 这一表达式成立的前提条件是解释变量X 1 , X 2 , X k 之间没有多重共线性. 如果矩阵X 不是满秩的,则X X 也不是满秩的.必有: X X 0, 从而 X X 不存在, OLS失效, 此时称该模型存在完全的多重共线性.
解释变量的精确线性组合表示,它们的相关系数的绝对值为1.
X s ,h =
Var X is Var X ih ch cs
n
Cov( X is , X ih )


n
n i 1
( X is X is )( X ih X ih )
2
i1 ( X is X is )
则:
x y x
i1 i 2 i1
, 而1与 2却无法估计.
2 在近似共线性下OLS参数估计量的方差变大
我们前面已论述, 在近似共线性下,虽然可以得到OLS估计量: ) X X 1 2 Var (

由于此时 X X 0, 引起 X X 主对角线元素较大, 即 i的方差较大.
1
对此, 如果我们合并两个(或多个)高度线性相关的变量, 可以使用OLS , 但两个(或多个)变量前的参数将无法估计. 例如,对于回归模型:Yi 0 1 X i1 2 X i 2 i i 1, 2 , n 如果有:X i 2 X i1 , 合并两变量 : Yi 0 1 2 X i1 i , 令 1 2 ,
n
( X ih X ih ) i1
n 2
2
1 X s , h 1 在近似的多重共线性下则得不到这样的精确线性组合, 它们的相关系数的绝对值近似为1.

多重共线性考试考试与答案

多重共线性考试考试与答案

第七章 多重共线性习题与答案1、多重共线性产生的原因是什么?2、检验多重共线性的方法思路是什么?有哪些克服方法?3、考虑一下模型:Y t =β1+β2X t +β3X 1-t +4βX 2-t +5βX 3-t +6βX 4-t +u t其中Y =消费,X =收入,t =时间。

上述模型假定了时间t 的消费支出不仅是时间t 的收入,而且是以前多期的收入的函数。

例如,1976年第一季度的消费支出是同季度收入合1975年的四个季度收入的函数。

这类模型叫做分布滞后模型(distributed lag models )。

我们将在以后的一掌中加以讨论。

(1) 你预期在这类模型中有多重共线性吗?为什么?(2)如果预期有多重共线性,你会怎么样解决这个问题?4、已知回归模型μβα++=N E ,式中E 为某类公司一名新员工的起始薪金(元),N 为所受教育水平(年)。

随机扰动项μ的分布未知,其他所有假设都满足。

(1)从直观及经济角度解释α和β。

(2)OLS 估计量αˆ和βˆ满足线性性、无偏性及有效性吗?简单陈述理由。

(3)对参数的假设检验还能进行吗?简单陈述理由。

5、根据1899—1922年在美国制造业部门的年度数据,多尔蒂(Dougherty )获得如下回归结果:LogY=2.81 - 0.53logK+ 0.91logL + 0.047tSe =(1.38)(0.34) (0.14) (0.021)R 2=0.97 F=189.8其中Y =实际产生指数,K=实际资本投入指数,L=实际劳力投入指数,t =时间或趋势。

利用同样数据,他又获得一下回归:(1)回归中有没有多重共线性?你怎么知道?(2)在回归(1)中,logK 的先验符号是什么?结果是否与预期的一致?为什么或为什么不?(3)你怎样替回归的函数形式(1)做辩护:(提示:柯柏—道格拉斯生产函数。

)(4)解释回归(1)在此回归中趋势变量的作用为何?(5)估计回归(2)的道理何在?(6)如果原先的回归(1)有多重共线性,是否已被回归(2)减弱?你怎样知道?(7)如果回归(2)被别看作回归(1)的一个受约束形式,作者施加的约束是什么呢?(提示:规模报酬)你怎样知道这个约束是否正确?你在哪一种检验?说明你的计算。

第7章 多重共线性

第7章 多重共线性
LnY i = LnA + α LnL i + β LnK i + u i 高度相关。 通常 L 和 K 高度相关。若已知该 CD 生产函数规模报酬不变 , 代入原模型可得: 即满足 α + β = 1,则将 α =1 − β 代入原模型可得: Y K Ln i = LnA + β Ln i + u i Li Li 新模型只有一个解释变 量,自然也就不存在多 重共线性问题
经济贸易学院 熊维勤
2011-3-6
15
4、利用参数之间的关系进行参数代换 、
如果多重共线性是由某些解释变量引起的, 如果多重共线性是由某些解释变量引起的,根据经济理论和 实际分析又知道他们对应的参数之间满足一定的关系, 实际分析又知道他们对应的参数之间满足一定的关系,则可 通过参数代换减少和避免多重共线性。 通过参数代换减少和避免多重共线性。 和劳动投入量L, 例:若产出量取决于资本K和劳动投入量 ,且模型为 若产出量取决于资本 和劳动投入量
2011-3-6 经济贸易学院 熊维勤 16
5、利用解释变量之间的关系将模型化为联立方程模型 、 6、变换模型的形式 、 如果某些解释变量之间高度相关, 如果某些解释变量之间高度相关,根据研究目的的实际情 可通过改变模型形式来避免多重共线性。 况,可通过改变模型形式来避免多重共线性。 取决于其出厂价格X 市场价格X 例:某产品的销售量Y取决于其出厂价格 1、市场价格 2 某产品的销售量 取决于其出厂价格 和市场总供应量X 模型为: 和市场总供应量 3,模型为:
()
由于|X’X|≈0,引起 ≈ ,引起(X’X) -1主对角线元素较大,使参数 主对角线元素较大, 由于 估计量的方差较大, 使得在参数的显著性检验中增加了 估计量的方差较大, 接受原假设的可能, 接受原假设的可能 , 从而舍去对被解释变量有显著影响 的解释变量。 的解释变量。

第七章 多重共线性

第七章 多重共线性

2
X 1i 1 r 2
2
ˆ 同理:Var b2

2
X 2i 1 r 2
2
第二节
多重共线性的影响后果
2
ˆ 当完全不共线时,r=0, Var b1
X
2 1i
当不完全共线时,r越接近1,相关程度越高, bi Var ˆ 越大,参数估计值越不准确。
第四节
多重共线性的解决方法
三、逐步回归法 (1)计算因变量对每一个解释变量的回归方程,并分别 进行统计检验,从中选取最合适的基本回归方程。 (2)逐一引入其他解释变量,重新进行回归,在模型中 每个解释变量均显著,参数符号正确, R 2 值有所提高的前 提下,从中再选取最合适的二元回归方程。 (3)在选取的二元回归方程的基础上以同样的方式引 入第三解释变量;如此引入,直至无法引入新变量为止。
第四节
多重共线性的解决方法
(2)如果历年的平均收入弹性与近期的收入弹性 近似相等,就可以用 a2代替原模型中的 b2 。将原模 ln y a2 ln I b0 b1 ln P 型变为 y1 ln y a2 ln I 令:
p1 ln P 再利用时间序列数据求出价格弹性 b1 以及 b0即可。
第四节
多重共线性的解决方法
二、间接剔除重要的解释变量 1、利用已知信息 所谓已知信息,就是在建立模型之前,根据经 济理论、统计资料或经验分析,已知的解释变量之 间存在某种关系。为了克服模型的多重共线性,可 以将解释变量按已知关系加以处理。
第四节
多重共线性的解决方法
例如:柯布-道格拉斯生产函数
y aL K e
ln y / K ln a ln L / K

多重共线性讲义

当存在不完全多重共线性时,从上面已经知道,参数的OLS估计量方差 较大,其标准误也就较大,从而使得参数估计量的精度较低。
9
3.参数估计量经济含义不合理 如果模型中两个解释变量具有线性相关性,例如 X2= X1 ,这时,X1和
X2前的参数1、2并不反映各自与被解释变量之间的结构关系,而是反映它 们对被解释变量的共同影响。1、2已经失去了应有的经济含义,于是经常 表现出似乎反常的现象:例如1本来应该是正的,结果恰是负的。
如果存在 c1X1i+c2X2i+…+ckXki+vi=0 i=1,2,…,n
其中ci不全为0,vi为随机误差项,则称为 不完全多重共线性或欠完 全多重共线性(approximate multicollinearity)。
4
7.2.产生多重共线性的原因
一般地,产生多重共线性的主要原因有以下四个方面: (1)经济变量相关的共同趋势 时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、 投资、价格)都趋于增长;衰退时期,又同时趋于下降。 横截面数据:生产函数中,资本投入与劳动力投入往往出现高度 相关情况,大企业二者都大,小企业都小。 (2)滞后变量的引入 在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济 关系。 例如,消费=f(当期收入, 前期收入),显然,两期收入间有较强的 线性相关性。
14
15
2、辅助回归法
利用模型中每一个解释变量分别以其余解释变量为解释变量进行回归, 并计算相应的拟合优度。
如果某一种回归 X j c 1X1 2 X 2 ... j1X j1 j1X j1 ... k X k
的判定系数较大,说明Xj与其他X间存在共线性。 判别的标准是回归模型是否通过F检验。

多重共线性


我们可以分别作y对x1和y对x2的回归,以便弄清 x1和x2单独对y的影响如何:
yˆi 9.4092 1.6449 x1i (0.0704)
线性。
如果存在不为零的常数 1, 2 ,使得下式成立
1 x1i 2 x2i vi 0 其中vi是随机项,这表示解释变量x1和x2之间存在近 似的线性关系,则说x1和x2之间高度相关,即存在不 完全多重共线性。 完全多重共线性和不完全多重共线性,统称为多重 共线性。因此,所谓多重共线性是指解释变量之间 存在完全的线性关系或近似的线性关系。
§7.2 多重共线性的后果
一般模型
Y X U
(7.2.11)
完全多重共线,即解释变量中存在
0 1 x1i k xki 0 (7.2.12)
其中λi不全为零。于是
rk(X) < k +1
(7.2.13)
便有
| X′X |=0
(7.2.14)
从而使得参数估计量
ˆ ( X X )1 X Y
i=1,2,…,k,皆有R2i=0。
多重共线性基本上是一种样本现象。因为人们在制 定模型时,总是尽量避免将理论上具有严格线性关 系的变量作为自变量收集在一起,因此,实际问题 中的多重共线性并不是自变量之间存在理论上或实 际上的线性关系造成的,而是由于所收集的数据(自 变量观察值)之间存在近似的线性关系所致。
例7.2.1 设因变量y和自变量x1、x2具有表7.2.1所示的 观察值,我们用模型
yi 0 1 x1i 2 x2i ui
拟合表7.2.1中的数据。
表7.2.1
y、x1和x2的观察值
yi 30 35 40 45 50 60 68 80 92 104 x1i 10 15 18 22 28 32 38 42 50 55 x2i 9.8 14.9 17.6 21.6 27.6 31 37.2 42.3 50.2 54.6

第七章多重共线性


X i fi ( X1, X 2 , , X i1, X i1, , X k )
X k fk ( X1, X 2 , , X k1)
对应的判定系数 R12, R22, , R2j , , Rk2

R2j
对应为以 X j 为被解释变量的回归方程。
显然,这些判定系数中最大且接近于1的那 一个R2i所对应的变量Xi,是与其他解释 变量发生多重共线性最严重的一个
(2)估计多重共线性的范围,即判断哪些 变量之间存在共线性。
有几点我们要明白:
(1) 多重共线性是一个程度问题而不是存在与否 的问题。
(2) 由于多重共线性是在假定解释变量是非随机 的条件下出现的问题,因而它是样本的特征,而 不是总体的特征。
因此,我们不仅可以“检测多重共线性”,而且 可以测度任何给定样本的多重共线性程度。
X1 9
X2i、2, 25, 48 X 2 25
X3i、1, 23, 24
X 3 16
view correlations
它们两两简单相关系数不大,但是严格共线性
所以,用简单相关系数判断模型是否存在多重共线性,只 适用于两个解释变量的情况
(二)估计多重共线性的范围
如果存在多重共线性,需进一步确定究竟由哪些变 量引起。
多重共线性是一个程度问题
若解释变量两两之间完全不相关,则不存在 该问题;
若其中部分解释变量之间完全相关,则根本 不能用OLS进行回归;
若解释变量之间存在一定程度的线性关系, 则是本章所要解决的多重共线性的问题。
2.参数的方差 因为估计值的方差为:
Var(1)
2 x22i
x12i x22i ( x1i x2i )2
注意: 完全共线性的情况并不多见,一般出现的

第七章多重共线性

第七章多重共线性第七章多重共线性若线性模型不满⾜假定6,就称模型有多重共线性。

§7.1 多重共线性的概念⼀. 基本概念:假定6 ()1k r X k n =+<,是指模型中所有⾃变量12,,,,k x x x 1线性⽆关,也可理解为矩阵X 的列向量线性⽆关。

若不满⾜该假定,即 ()1k r X k <+,则称12,,,,k x x x 1存在完全多重共线性,12,,,,k x x x 1存在严格的线性关系,这是⼀种极端情况;若12,,,,k x x x 1之间的线性关系不是严格的,⽽是⼀种近似的线性关系,则称⾼度相关或存在不完全多重共线性。

如,01122i i i i y x x u βββ=+++ 若12,λλ?不全为零,使11220i i x x λλ+=,完全多重共线性11220i i i x x v λλ++= 不完全多重共线性完全多重共线性和不完全多重共线性统称为多重共线性。

解释变量(⾃变量)之间的线性关系可⽤拟合优度2i R 描述,2i R 表⽰i x 对其它解释变量的拟合优度,21i R = 完全 21i R ≈⾼度 20i R = ⽆⼆. 产⽣的原因:在实际经济问题中主要是不完全多重共线性。

其产⽣的主要原因是:1. 两个解释变量具有相同或相反的变化趋势;(家庭能耗与住房⾯积、⼈⼝)⽣产、需求.......2. 数据收集的范围过窄,造成解释变量之间有相同或相反变化的假象;3. 某些解释变量之间存在某种近似的线性关系;(各解释变量有相同的时间趋势)4. ⼀个变量是另⼀个变量的滞后值;供给5. 解释变量的选择不当也可能引起变量间的多重共线性。

6. 过度决定模型。

(观测值个数少于参数个数)对于正确设置的模型,多重共线性基本上是⼀种样本现象。

§7.2 多重共线性的后果⼀. 完全多重共线性当模型具有完全多重共线性时,⽆法进⾏参数的OLS 估计;设模型 Y XB U =+,若有完全多重共线性,即()1k r X k <+,则()1T r X X k <+ 1()T X X -?不存在1()T TB X X X Y ∧-?=不存在,同样 21()()Tj u jj V X X βσ∧-=也不存在,显著性检验和预测都⽆法进⾏。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第七章 多重共线性若线性模型不满足假定6,就称模型有多重共线性。

§7.1 多重共线性的概念一. 基本概念:假定6 ()1k r X k n =+<,是指模型中所有自变量12,,,,k x x x ⋅⋅⋅⋅⋅⋅1线性无关,也可理解为矩阵X 的列向量线性无关。

若不满足该假定,即 ()1k r X k <+, 则称12,,,,k x x x ⋅⋅⋅⋅⋅⋅1存在完全多重共线性,12,,,,k x x x ⋅⋅⋅⋅⋅⋅1存在严格的线性关系,这是一种极端情况;若12,,,,k x x x ⋅⋅⋅⋅⋅⋅1之间的线性关系不是严格的,而是一种近似的线性关系,则称高度相关或存在不完全多重共线性。

如,01122i i i i y x x u βββ=+++ 若12,λλ∃不全为零, 使11220i i x x λλ+=, 完全多重共线性11220i i i x x v λλ++= 不完全多重共线性完全多重共线性和不完全多重共线性统称为多重共线性。

解释变量(自变量)之间的线性关系可用拟合优度2i R 描述,2i R 表示i x 对其它解释变量的拟合优度,21i R = 完全 21i R ≈ 高度 20i R = 无 二. 产生的原因:在实际经济问题中主要是不完全多重共线性。

其产生的主要原因是:1. 两个解释变量具有相同或相反的变化趋势;(家庭能耗与住房面积、人口) 生产、需求.......2. 数据收集的范围过窄,造成解释变量之间有相同或相反变化的假象;3. 某些解释变量之间存在某种近似的线性关系;(各解释变量有相同的时间趋势)4. 一个变量是另一个变量的滞后值;供给5. 解释变量的选择不当也可能引起变量间的多重共线性。

6. 过度决定模型。

(观测值个数少于参数个数)对于正确设置的模型,多重共线性基本上是一种样本现象。

§7.2 多重共线性的后果一. 完全多重共线性当模型具有完全多重共线性时,无法进行参数的OLS 估计; 设模型 Y XB U =+,若有完全多重共线性,即()1k r X k <+,则()1T r X X k <+ 1()T X X -⇒不存在1()T TB X X X Y ∧-⇒=不存在,同样 21()()Tj u jj V X X βσ∧-=也不存在,显著性检验和预测都无法进行。

二. 不完全多重共线性设模型为 01122i i i i y x x u βββ=+++ 有不完全多重共线性,即 102i i i x x v λλ=++, 其中0λ≠,i v 可视为残差。

为叙述方便,可用中心化形式12i i i x x v λ∙∙=+(0iv =∑,20ii xv ∙=∑),1121122212nn x x x x X x x ∙∙∙∙∙∙∙⎛⎫ ⎪ ⎪ ⎪= ⎪⋅⋅⋅⋅⋅⋅ ⎪ ⎪⎝⎭,211211212211n ni i i i i T n n i i i i i x x x X X x x x ∙∙∙∙∙==∙∙∙==⎛⎫ ⎪ ⎪= ⎪ ⎪⎝⎭∑∑∑∑222222111222211n nni i ii i i nni ii i x v x x xλλλ∙∙===∙∙==⎛⎫+ ⎪⎪= ⎪ ⎪⎝⎭∑∑∑∑∑则有 22211nn Ti ii i X X x v∙∙∙===∑∑这样 222211122222222211111()1()nni iT i i T n nn n n T i i i i i i i i i i x xX X X X x v X X x x v λλλ∙∙∙∙*∙∙==-∙∙∙∙∙=====⎛⎫- ⎪⎪== ⎪-+ ⎪⎝⎭∑∑∑∑∑∑∑2212212111ni n i n i i i i v v x λλλ=∙==-⎛⎫ ⎪⎪=⎪-+ ⎪⎪ ⎪⎝⎭∑∑∑21212212111()nT T T i n i n i i i i v X X X Y X Y v x λβλλ∙∙∙∧∙∙∙-=∙==-⎛⎫⎪⎪== ⎪-+ ⎪ ⎪⎪⎝⎭∑∑∑210nii v=≠∑是显然的,所以可确定β∧。

但i v 是残差,依赖于样本,因此21ni i v =∑很不稳定,且0TX X ∙∙≈,使()V β∧21()Tujj X X σ∙∙-=很大,其后果⑴使β∧很不稳定,对样本非常敏感; ⑵()V β∧很大,β∧的估计精度很难控制;⑶统计量T β∧=增大接受“0:0j H β=”的可能性(即j β不显著),但2R 仍可能是显著的,⑷使预测的精度大大降低。

例7.2.1 书179页§7.3 多重共线性的检验由于在经济问题研究中,多重共线性是普遍存在的,当多重共线性程度较高时,会带来严重后果,因此检验多重共线性时希望达到如下目的: ⑴是否存在多重共线性; ⑵多重共线性的程度;⑶多重共线性的形式或性质。

一. 不显著系数法:利用参数的显著性判断是否有多重共线性,有以下情况时可判断有多重共线性:⑴若2R 显著(2R 0.8>),但全部参数或部分参数不显著(不能通过显著性检验); 12()()()TTTTTTT T RSS B X Y X Y X X X Y R TSSY Y Y Y∧∙∙∙∙∙∙∙∙-∙∙∙∙==== 由于有多重共线性,所以行列式会TX X ∙∙很小,1()TX X ∙∙-就会较大。

⑵若按相关经济理论知解释变量i x 对y 有重要影响,但i β却不显著;⑶如果添加新自变量x '后,原有参数的估计值的方差明显增大,则自变量(含x ')之间可能有多重共线性。

二.利用解释变量之间所构成的回归方程的拟合优度2j R 检验:设有k 个自变量 12,,,k x x x ⋅⋅⋅⋅⋅⋅,则可构成k 个辅助线性回归方程 102233,,k k x x x x αααα=+++⋅⋅⋅⋅⋅⋅+ 其拟合优度为21R ,201133,,k k x x x x αααα=+++⋅⋅⋅⋅⋅⋅+ 22R ,⋅⋅⋅⋅⋅⋅0111111j j j j j k k x x x x x ααααα--++=++⋅⋅⋅+++⋅⋅⋅+ 2j R ⋅⋅⋅⋅⋅⋅0112211k k k x x x x αααα--=+++⋅⋅⋅⋅⋅⋅+ 2k R若其中一个2j R 接近1,则j x 与其余一个或几个自变量有高度相关。

当模型中只有两个解释变量时,可用它们之间的相关系数的平方212r 来检验。

三. 利用去除某个自变量后模型的拟合优度2j R *与2R 比较:原模型为01122k k y x x x u ββββ=+++⋅⋅⋅⋅⋅⋅++ 拟合优度为2R ,去掉一个变量后得 02233k k y x x x u ββββ=+++⋅⋅⋅⋅⋅⋅++ 拟合优度为 21R *01133k k y x x x u ββββ=+++⋅⋅⋅⋅⋅⋅++ 22R *⋅⋅⋅⋅⋅⋅0111111j j j j k k y x x x x u βββββ--++=++⋅⋅⋅+++⋅⋅⋅++ 2j R * ⋅⋅⋅⋅⋅⋅0112211k k y x x x u ββββ--=+++⋅⋅⋅⋅⋅⋅++ 2k R *若2j R *是最大的且与2R 很接近,则j x 对y 的影响不明显,其作用可由其它自变量替代,这说明j x 与其它自变量有近似线性相关关系,因此可认为j x 的多重共线性严重。

四. 相关矩阵法:模型为 01122t t t k kt t y x x x u ββββ=+++⋅⋅⋅⋅⋅⋅++,计算其相关矩阵111212122212k k k k kk r r r r r r R r r r ⋅⋅⋅⎛⎫⎪⋅⋅⋅ ⎪=⎪⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⎪⋅⋅⋅⎝⎭其中,ij xx r ∙∙=, 是简单相关系数;12112212111k k k k r r r r r r ⋅⋅⋅⎛⎫⎪⋅⋅⋅⎪= ⎪⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⎪⋅⋅⋅⎝⎭且1ij ji r r ⎧=⎨⎩ i ji j =≠ 若某个ij r 较大(一般认为0.8ij r >时),表明i x 与j x 有较强的多重共线性。

需要说明的是相关矩阵法只适用于两个解释变量之间存在多重共线性的情况,它是存在多重共线性的充分条件而非必要条件,即若ij r 较小未必说明无多重共线性。

五. 方差膨胀因子利用方差膨胀因子不仅可以检验多重共线性,还可用来衡量多重共线性的强度。

(一)标准化变量变量x ,其一组观测值为12(,,......,)Tn x x x ,则相应的标准化变量~x 的观测值为~j x x x x -∙-==1,2,......,j n =;其中,1i x x n -=∑,x S = 标准化后,变量有~0x -=且~21ix=∑。

这样定义的标准化变量与通常意义的标准化稍有差别。

显然,变量标准化后不受坐标平移和计量单位的影响,且一个线性模型也可以用标准化变量表示。

设线性模型为01122j j j k kj j y x x x u ββββ=+++⋅⋅⋅⋅⋅⋅++,1,2,,j n =⋅⋅⋅⋅⋅⋅ 先中心化,有1212j j kj j k j y x x x u βββ∙∙∙∙∙=++⋅⋅⋅⋅⋅⋅++,1,2,,j n =⋅⋅⋅⋅⋅⋅ (其中,j j u u u ∙-=-,1j u u n-=∑ )y ,模型变为12j j kj y x x x ∙∙∙∙∙=1,2,,j n =⋅⋅⋅⋅⋅⋅ 最后用i ix x S S 去乘上式右侧的对应项,并令~ix i i yS sββ=,1,2,,j n =⋅⋅⋅⋅⋅⋅~~~2ky βββ∙∙∙∙∙=+,1,2,,j n =⋅⋅⋅⋅⋅⋅ 模型被表示成标准化变量的形式~~~~~~~'1212j j kj k j j y x x x u βββ=++⋅⋅⋅⋅⋅⋅++,1,2,,j n =⋅⋅⋅⋅⋅⋅其矩阵形式 ~Y X B U =+ (二)膨胀因子对上式用OLS 进行估计,其参数~i β的OLS 估计量的方差为 ~21()()Ti u ii V X X βσ-=,1,2,,i k =⋅⋅⋅⋅⋅⋅可用来度量估计精度。

其中2u σ为常数,则参数估计量取决于1()T ii X X -的大小,1()Tii X X -称为~i β的方差膨胀因子,用i VIF 表示1()T i iiVIF X X -=。

可以证明 21(1)i iVIF R -=-,2iR 为~i x 对其余自变量做回归的拟合优度,1i VIF ≥。

显然i VIF 越大(此时2iR 也大),说明~i x 被其他自变量解释的程度越高,多重共线性越严重; i VIF 越小(此时2iR 也小),说明~i x 被其他自变量解释的程度越低,多重共线性程度越轻。

相关文档
最新文档