多重共线性的危害
计量经济学的各种检验

主分量回归是将具有多重相关的变量集综合得出少数几个互不相关的主分量.两步:(1)找出自变量集的主分量,建立y与互不相关的前几个主分量的回归式.(2)将回归式还原为原自变量结果.详见,<<实用多元统计分析>>,方开泰;
主分量回归结果
Obs _MODEL_ _TYPE_ _DEPVAR_ _PCOMIT_ _RMSE_ Intercept x1 x2 x3 y 1 MODEL1 PARMS y 0.48887 -10.1280 -0.05140 0.58695 0.28685 –1 2 MODEL1 IPCVIF y 1 0.25083 1.00085 0.25038 –1 3 MODEL1 IPC y 1 0.55001 -9.1301 0.07278 0.60922 0.10626 –14 MODEL1 IPCVIF y 2 0.24956 0.00095 0.24971 -15 MODEL1 IPC y 2 1.05206 -7.7458 0.07381 0.08269 0.10735 -1
多重共线性检验方法(3)样本相关系数检验法
FG test results
fg=20.488013401 p=0.0001344625;拒绝零假设,认为存在多重共线性。具体那些变量之间存在多重共线性,除了上面提到的辅助回归的方法外,还有以下提到的条件数检验和方差膨胀因子法。
多重共线性检验方法:(4)特征值分析法所用的检验统计指标
补救措施
增加样本;岭回归或主分量回归;至少去掉一个具有多重共线性的变量;对具有多重共线性的变量进行变换.对所有变量做滞后差分变换(一般是一阶差分),问题是损失观测值,可能有自相关.采用人均形式的变量(例如在生产函数估计中)在缺乏有效信息时,对系数关系进行限制,变为有约束回归(Klein,Goldberger,1955),可以降低样本方差和估计系数的标准差,但不一定是无偏的(除非这种限制是正确的).对具有多重共线性的变量,设法找出其因果关系,并建立模型和原方程构成联立方程组.
第四章 多重共线性

2
( x2 i x3 i ) 2 x [1 2 x3 i
2 2i
2
2 2 x2 i (1 r23 )
ˆ Var( 3 ) 同样可得
2
2 2 x3 i (1 r23 )
ˆ ˆ Cov( 2 , 3 )
r23 2
2 2 2 (1 r23 ) x2 i x3 i
1 X X 21 X 31
1 X 22 X 32
1 X 2n X 3n
nX 3 X 2 i X 3 i 2 X 3 i
X 2 i
2 X 2 i X 2 i X 3 i
X 3 i n nX 2 2 X 2 i X 3 i nX 2 X 2 i 2 X 3 i nX 3 X 2 i X 3 i
其中vi为随机变量,则称解释变量X2、X3、 …、 Xk 之间存在着不完全的多重共线性。 注意:解释变量之间不存在线性关系,并非不存在 非线性关系,当解释变量之间存在非线性关 系时,并不违反古典假定。
5
二、产生多重共线性的背景
多重共线性产生的经济背景主要有几种情形:
1.经济变量之间具有相同的变化趋势。
10
n X X nX 2 nX 3 n 0
nX 2 X
2 2i
nX 3 X 2 i X 3 i
2 X 3 i
X 2 i X 3 i nX 2
2 2 X 2 i nX 2
X 2 i x2 i X 2 X 3 i x3 i X 3
nX 3
X 2 i X 3 i nX 2 X 3
这里r23是X2,X3的相关系数。
16
计量经济学07计量多重共线性

Y/C1 △ Y
0.6072 0.6028 0.5996 0.5613 0.5339 0.5697
588 587 1088 1628 1441
0.5552 1651 0.5067 2920
0.5684 1762 0.5762 1854 0.5339 2960 0.5083 4584 0.4624 8637 0.4284 12610 0.4581 12294 0.5041 9093
横截面数据:生产函数中,资本投入与劳动力投入往 往出现高度相关情况,大企业二者都大,小企业都小。
(2)滞后变量的引入
在经济计量模型中,往往需要引入滞后经济变量来 反映真实的经济关系。例如消费变动的影响因素不仅有 本期可支配收入,还应考虑以往各期的可支配收入;固 定资产存量变动的影响因素不仅有本期投资,还应考虑 以往若干期的投资。同一变量的前后期之值很可能有较 强的线性相关性,模型中引入了滞后变量,多重共线性 就难以避免。
第七章 多重共线性
(Multicollinearity)
一、多重共线性的概念 二、实际经济问题中的多重共线性 三、多重共线性的后果 四、多重共线性的检验 五、克服多重共线性的方法 六、案例
一、多重共线性的概念
对于模型
Yi= 0+ 1X1i+ 2X2i+ + kXki+ i
i=1,2,…,n 其基本假设之一是解释变量是互相独立的。
求出X1与X2的简单相关系数r,若|r|接近1,则说明两变量 存在较强的多重共线性。
(2) 对多个解释变量的模型,采用综合统计检验法
若 在OLS法下:R2与F值较大,但t检验值较小,说明各 解释变量对Y的联合线性作用显著,但各解释变量间存在共 线性而使得它们对Y的独立作用不能分辨,故t检验不显著。
第四章第二节 多重共线性产生的后果

Y E(Y ) 1 2 X2 3 X3
二元线性回归模型 Y 1 2 X 2 3 X3 u
其离差形式为: y 2 x2 3x3 u
y 2 x2 3 x3 e
2和 3 的估计式
ˆ2 (
yx2 )( x32 ) ( yx3 )( x2 x3 ) ( x22 )( x32 ) ( x2 x3 )2
x31x32 x3n xk1xk 2xkn (k1)n
y x e, xy xx xe xx ,即为正规方程组
x21x22 x2n y1 x31x32 x3n y2 xk1xk2 xkn yn
r24 0.9632 r35 0.8435 r46 0.9248
r25 0.4569 r36 0.5494 r56 0.5438
r26 0.8569
表明一些解释变量之间确实存在共线性。
***离差形式的最小二乘估计量
多元线性总体回归模型有:
Yi 1 2 X 2i 3 X 3i k X ki ui Y 1 2 X2 3 X3 k Xk Yi Y 2 ( X 2i X 2 ) 3 ( X 3i X 3 ) k ( X ki X k ) ui yi 2 x2i 3 x3i k xki ui
x22 )2
x22 )
(
yx2
) 2 ( y)( ( x22 )( 2 )
x22 )
通过上式可以看出,随着 X2、X3 共线性程度的越
高,即 愈向零靠近,从而 ˆ2 就会愈趋向于不确定
7.2多重共线性的后果

但在多重共线性的情况下,解释变量的相关性将 无法“保持其他变量不变”,从而也难以分离出 每个解释变量的单独影响。
例如,对于二元线性回归模型
Yi 0 1 X1i 2 X2i ui 如果两个解释变量完全相关,如X2 X1,则该二元
线性回归模型退化为一元线性回归模型:
Yi 0 (1 2)X1i ui 这时,只能确定综合参数1 2的估计值,无法 确定1,2各自的估计值。
一、OLS估计量的方差增大
设二元线性回归模型为:
Yi 0 1 X1i 2 X2i ui
可以证明,ˆ1和ˆ2的方差为:
Var(ˆ1)
2
1
,
x12i 1 r122
Var(ˆ2 )
2
x22i
1
1 r122
其中r12为X1和X 2之间的相关系数。
第二节 多重共线性的后果
• OLS估计量的方差增大 • 难以区分每个解释变量的单独影响 • 变量的显著性检验失去意义 • 回归模型缺乏稳定性
经典回归模型要求模型不存在完全的多重共线 性,所以,即使模型存在严重的多重共线性,也并 不违背基本假定,OLS估计仍然是最佳线性无偏估 计。但多重共线性却会产生以下问题:
问题在于,即使OLS法仍是最好的估计方 法,它却不是“完美的”,尤其是在统计推 断上无法给出真正有用的信息。
经常会出现参数估计量的经济意义明显不合理。
经验表明,在多元线性回归模型的估计中,如果出现参 数估计值的经济意义明显不合理的情况,应该首先怀疑是 否存在多重共线性。
注意:
除非是完全共线性,多重共线性并不意味 着任何基本假定的违背;
因此,即使出现较高程度的多重共线性, OLS估计量仍具有线性性等良好的统计性质。
多重共线性问题分析

与其余解释变量之间有严重的多重共线性,且这
种多重共线性可能会过度地影响最小二乘估计。
(4)直观判断法
①当增加或剔除一个解释变量,或者改变一
个观测值时,回归参数的估计值发生较大变 化,回归方程可能存在严重的多重共线性。 ②从定性分析认为,一些重要的解释变量的 回归系数的标准误差较大,在回归方程中没 有通过显著性检验时,可初步判断可能存在 严重的多重共线性。
例 如 :
年份 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
C 1759.1 2005.4 2317.1 2604.1 2867.9 3182.5 3674.5 4589.0 5175.0 5961.2 7633.1 8523.5 9113.2 10315.9 12459.8 15682.4 20809.8 26944.5 32152.3 34854.6 36921.1 39334.4 42911.9
三、多重共线性的检验
多重共线性表现为解释变量之间具有相关关系,
所以用于多重共线性的检验方法主要是统计方法:
如判定系数检验法、逐步回归检验法等。 多重共线性检验的任务是: (1)检验多重共线性是否存在;
(2)估计多重共线性的范围,即判断哪些变量之
间存在共线性。
1、检验多重共线性是否存在
(1)对两个解释变量的模型,采用简单相关系数法
可以有效地消除原模型中的多重共线性。
一般而言,差分后变量之间的相关性要比
差分前弱得多,所以差分后的模型可能降
用主成分法解决多重共线性问题

用主成分法解决多重共线性问题一、多重共线性的表现线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系。
看似相互独立的指标本质上是相同的,是可以相互代替的,但是完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。
二、多重共线性的后果1.理论后果多重共线性是因为变量之间的相关程度比较高。
按布兰查德认为, 在计量经济学中, 多重共线性实质上是一个“微数缺测性”问题,就是说多重共线性其实是由样本容量太小所造成,当样本容量越小,多重共线性越严重。
多重共线性的理论主要后果:(1)完全共线性下参数估计量不存在;(2)近似共线性下OLS估计量非有效;(3)模型的预测功能失效;(4)参数估计量经济含义不合理2.现实后果(1)各个解释变量对指标最后结论影响很难精确鉴别;(2)置信区间比原本宽,使得接受假设的概率更大;(3)统计量不显著;(4)拟合优度的平方会很大;(5)OLS估计量及其标准误对数据微小的变化也会很敏感。
三、多重共线性产生的原因1.模型参数的选用不当,在我们建立模型时如果变量之间存在着高度的相关性2. 由于研究的经济变量随时间往往有共同的变化趋势,他们之间存在着共性。
例如当经济繁荣时,反映经济情况的指标有可能按着某种比例关系增长3. 滞后变量。
滞后变量的引入也会产生多重共线行,例如本期的消费水平除受本期的收入影响之外,还有可能受前期的收入影响,建立模型时,本期的收入水平就有可能和前期的收入水平存在着共线性。
四、多重共线性的识别1.方差扩大因子法( VIF)一般认为如果最大的VIF超过10,常常表示存在多重共线性。
2.容差容忍定法如果容差(tolerance)<=0.1,常常表示存在多重共线性。
3. 条件索引条件索引(condition index)>10,可以说明存在比较严重的共线性。
五、多重共线性的处理方法处理方法有多重增加样本容量、剔除因子法、PLS(偏最小二乘法)、岭回归法、主成分法。
《计量经济学》第4章多重共线性

经验规则
●方差膨胀因子越大,表明解释变量之间的多重共 性越严重。反过来,方差膨胀因子越接近于1,
多重共线性越弱。
●经验表明,方差膨胀因子≥10时,说明解释变量
与其余解释变量之间有严重的多重共线性,且这
种多重共线性可能会过度地影响最小二乘估计。
3、直观判断法
根据经验,通常以下情况的出现可能是由于存在多重共线性
则可认为存在着较严重的多重共线性。
注意:较高的简单相关系数只是多重共线性存在的充分条件, 而不是必要条件
2、方差扩大(膨胀)因子法
ˆ 的方差可表示为 统计上可以证明, β j
2 2 σ 1 σ ˆ )= Var( β = VIFj j 2 2 2 x j 1- Rj x j
其中的 VIFj 是变量 X j 的方差扩大因子 1 (Variance Inflation Factor),即 VIFj = 2 1R j 其中 R 2 是Xj关于其余解释变量的辅助回归 j 的可决系数
1995
1996 1997 1998
1375.7
1638.4 2112.7 2391.2
62900
63900 64400 69450
464.0
534.1 599.8 607.0
61.5
70.5 145.7 197.0
5.97
6.49 6.60 6.64
1999
2000 2001 2002 2003 2004 2005 2006 2007 2008
如果存在完全共线性,则(X’X)-1不存在,无法得 到唯一的参数估计量。
以离差形式的二元回归模型为例
y 1 x1 2 x2
如果两个解释变量完全相关,如x2= x1,则
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
记 x x 为 SST, x X X X
k k
k
1
k
k
k
k
X k xk
为
SSRk
。
σ2 Varbk 2 1 R SSRk SST k k SST k 1 SST k
k k
k
I Xk Xk Xk
1
σ2 Varbk x k Mk xk
5
三、发现和检验
(一)方差扩大因子检验 (二)状态数检验
6
(一)方差扩大因子检验
分析已知
σ2 σ2 Varbk 1 x x k M k xk k x k x k X k X k X k X k x k σ2
以 X 为条件的 b1 的条件方差 Varb X X X Varb E Varb X 也是 是最小方差,从而 b1 的方差 最小方差。
1 2 i i
2
1
X
1
23
如果 X 是随机变量,与误差项小样本不独立, 但大样本渐进不相关,即 X X
前一个模型变为 logQ 0 b1 logY 2 log P 整理这个模型可以得到
log Q b1 logY 0 2 log P Q log b1 0 2 log P Y
从而估计出 0 和 2 的估计值b0 和 b2 , 得到克服了多重共线性的回归直线 ˆ b b logY b log P logQ 0 1 2
21
二、随机解释变量和参数估计的 性质
设模型为 Y 0 1 X 其中误差项符合古典线性回归模型的各个假 设。 X i X Yi Y i 参数二乘估计的参数为: b1 X X 2
i
i
把
Yi Y 1 X i X i
两种理解:如果特征值之和反映对被解释变量解释程度, 倒数之和反映引起估计量方差的比重。
11
四、多重共线性的克服和处理
(一)增加样本容量 (二)差分方程 (三)模型修正 (四)分步估计参数 (五)岭回归方法
12
(一)增加样本容量
原理:样本容量越大,变量相关性越小, 相关越难。 注意局限,且不一定解决问题。
σ2
7
当 R 0 时, 当 0 R 1 时,Varb
2 k
σ2 Varbk SST k
k
2 k
σ2 1 σ2 2 SSTk 1 Rk SSTk
VIF bk 1 1 Rk2
方差扩大因子,记作 常以方差扩大因子是否大于10来判断第 k 个解释变量是否存在较强的、必须加以处理 的多重共线性。
30
一、问题的提出
误差项正态分布假设也不一定成立。 误差项不服从正态分布时,称“非正态误 差项” 影响:统计推断、假设检验的有效性等, 相关统计推断、检验结论的可靠性降低。
31
二、误差项正态性的检验
(一)直方图检验
p p
0
e
0
e
a
b
类似“高尔顿板”
32
(二)偏斜度和峰度检验 “偏斜系数” : E 3
Байду номын сангаас18
(五)岭回归方法
2 d 0 D
d12
2 dk
估计量的数学期望为:
ˆ XX D1 XEY Eβ
1 XX D XXβ 1 XX D XX D Dβ
17
(五)岭回归方法
设一个多元线性回归模型为 Y Xβ ε 普通最小二乘估计的公式为 B XX1 XY XX 矩阵 当解释变量间存在严重的多重共线性时, 接近于奇异。 用 XX λD 代替 XX 代入最小二乘估计的公式,得 ˆ XX D1 XY 到: β 其中 称为“岭回归参数”,一般 0 1 ,D 2 2 2 k 1,2,, K d X k ki X X 是用 矩阵对角线上元素d0 n 和 i 构成的对角线矩阵 。
9
确定哪些解释变量的系数受到多重共线性的 影响: 先计算各个特征值的“状态指数”
i min
这些状态指数的水平在1到 之间,很 可能有好几个超过20-30的“危险”水平。
max min
10
2、回归系数方差分解:如果V是对角化X X 的(K+1) (K+1) 对角矩阵:即
XXV VΛ
多元回归工具变量法估计 引进、选择多个关键变量。 向量、矩阵表示。
工具变量的选择问题: 与替代解释变量相关性强 与误差相相关性小 避免引起共线性问题
27
四、参数估计量分布问题和统计推断
问题:分布未知 两变量线性回归模型参数估计量
b1
X
i i
i
X Yi Y
i
X
第五章
线性回归的问题和分析方 法扩展(下) 多重共线性 随机解释变量 误差项非正态分布 最大似然估计
第一节 第二节 第三节 第四节
1
第一节 多重共线性
一、问题的性质和种类
二、多重共线性的危害
三、发现和检验 四、多重共线性的克服和处理
2
一、问题的性质和种类
1、严格多重共线性 模型设定问题 识别问题 2、近似多重共线性 主要是数据问题,也有模型设定问题
i i
P lim
n
i
n
n
0
那么因为
P lim b1 1 P lim
n
X
i i
i
X i
i
X
X
2
1 0 1
因此 b1 是1 的一致估计。虽然不是无偏估计。
24
三、工具变量法估计
设模型为 Y 0 1 X 其中 X不仅是随机变量,而且与 有强相关性。 对模型作离差变换得 Yi Y 1 X i X i 两边乘 Z Z 并求和得 Zi Z Yi Y 1 Zi Z X i X Zi Z i i i i 然后两边除以 Z Z X X ,有 Z Z Y Y Z Z Z Z X X Z Z X X
4
1 X X 其逆矩阵 左上角的首项为
1 1 x k x k x k X k X k X k X k x k xk M k x k 1
X 其中 M 因此参数 k 的最小二乘估计 b 的方差为
2
其中 Λ 是X X 的特征值构成的对角矩阵。 从而 VarB
XX VΛ
V- 1
XX1 2VV1
, k 0,1, , K
2 2 2 v v v k0 k1 kK Varbk 2 1 K 0
14
(三)模型修正
1、删减解释变量(利用检验结论、经验 等) 2、整合解释变量(利用原模型回归信息、 经验等) 3、先验信息参数约束
15
先验信息参数约束 例:生产函数 Y AL K ,经对数变换为:
logY log A log L log K
如果预先知道所研究的经济有规模报酬不 变的性质,即函数中的参数满足 1 就可以克服多重共线性。
34
一、最大似然估计的原理
根据事物出现的概率(几率、可能性)的 大小,推断事物的真相,包括定性的和定 量的(参数水平)真相。
例1:一个老战士和一个军训学生各射击一 次,但只有一枪中靶。问可能是谁打中的。
,
用 代替 E 3 ,用S “峰度”指标: E 4
1 3 e i n i
2 3 2
2
e
i
2 i
n K 1
代替 2 。
2 2
3
其中
1 4 用 e E i 代替。 n
4
i
33
第四节 最大似然估计
一、最大似然估计的原理 二、两变量线性回归模型参数的最大似 然估计 三、多元线性回归模型参数的最大似然 估计 四、随机解释变量模型的最大似然估计 五、最大似然估计的性质
β - XX D Dβ
1
19
第二节 随机解释变量
一、解释变量的随机性 二、随机解释变量和参数估计的性质 三、工具变量法估计 四、参数估计量的分布性质和统计推断
20
一、解释变量的随机性和问题
解释变量有随机性是普遍的问题。 随机解释变量有不同的情况,关键是与误 差项的相关性。 不同情况对回归分析的影响不同,处理也 不同。
X
2
多元回归模型参数的最小二乘估计 1
B XX XY
影响:t、F检验等仍基本有效。 t统计量 tk X bk k 1 渐近t分布。
S
XX kk
F统计量类似。
28
存在随机解释变量时相关统计推断受到一 定的影响
29
第三节 误差项非正态分布
一、问题的提出 二、误差项正态性的检验
logY log A log L 1 log K
logY log K log A log L log K Y L log log A log K K
16
(四)分步估计参数
例:研究需求规律的模型 logQ 0 1 logY 2 log P 可以先求出模型中参数 1的估计值(用截面 数据等)。 logQ logY