讲义-sas多重共线性、异方差、自相关
多重共线性-异方差-内生性-自相关总结对照表

六、怀特检验
七、布殊-帕甘检验
一、RESET检验
二、豪斯曼检验
一、图示检验法
二、解释变量严格外生条件下,误差项一阶自相关检验。
ut=ut-1+vt
三、古典假定下,误差项一阶自相关的DW检验
四、自变量非严格外生条件下,误差项一阶自相关检验。
五、误差项高阶自相关的布殊-戈弗雷检验BG检验
处理
3.因变量的预测精度降低。
检验
一、直观判断法
1、散点图法。
2、简单相关系数法。
3.经验判断法。
4.“经典”判断法。
5. Klein判别法。
二、辅助回归法vif
三、特征值与病态指数
四、法勒—格劳伯(Farrar—Glauber)检验
一、图示法
二、斯皮尔曼等级(秩)相关检验
三、戈德菲尔德-匡特检验
四、帕克检验
3、基于DW统计量的估计
4、基于残差的回归估计
5、科克伦-奥克特迭代法
三、非线性回归方法
四、尼威-威斯特(Newey-West)方法
3、原始数据的处理变换
4、经济变量的惯性作用
5、误差项本身存在自相关
后果
近似多重共线性并不违反回归假定。无偏的、有效的、一致的参数估计量仍可以得出,其标准误也仍将被正确估计。
1、估计结果不好解释
2、参数估计值的方差增大
3、参数估计的置信区间变大
4、假设检验容易作出错误的判断
1、最小二乘估计量仍然是线性无偏的与一致的,但不再
一、增加样本观测值
二、删去不重要的解释变量
三、利用“先验”信息
四、变量变换
五、变换模型的形式
六、逐步回归法
一、加权最小二乘法
多重共线性概念ppt课件

假设存在较强的共线性,那么Rj•2较大且 接近于1,这时〔1- Rj•2 〕较小,从而Fj的值较 大。
因此,给定显著性程度,计算F值,并
与另相一应等的价临的界值检比验较是,: 来断定能否存在相关性。
在模型中排除某一个解释变量Xj, 估计模型;
2
x12i
1
1 r
2
(
x1i x 2i ) 2
x12i
x
2 2i
恰为X1与X2的线性相关系数的平方r2
由于 r2 1,故 1/(1- r2 )1
当完全不共线时, r2 =0 当近似共线时, 0< r2 <1
vaˆ1r) (2/ x1 2 i
vaˆr1)(
2
x12i
1 1r2
2
x12i
• 3、解释变量之间相关=>多重共线 • 4、随机扰动项相关=>序列自相关 • 时间序列数据经常出现序列相关 • 5、随机扰动项方差不等于常数=>异方差 • 截面数据时,经常出现异方差
处理问题的思绪
• 1、定义违反各个根本假定的根本概念 • 2、违反根本假定的缘由、背景 • 3、诊断根本假定的违反 • 4、违反根本假定的补救措施〔修正〕
截面数据样本:问题不那么严重,但 多重共线性依然是存在的。
三、多重共线性的后果
1. 完全共线性下参数估计量不存在
Y X β μ
的OLS估计量为: β ˆ(XX)1XY
假设存在完全共线性,那么(X’X)-1不存在,无法 得到参数的估计量。
例:对离差方式的二元回归模型
y1x 12x2
假设两个解释变量完全相关,如x2= x1,那
异方差、自相关、多重共线性比较(计量经济学)

BG检验
基于所分析模型普通最小二乘估计的残差贵解释变量和一定数量滞后残差的辅助回归,如果滞后残差足以解释当前残差的差异,就拒绝误差项无自相关的原假设。
1.用OLS估计原模型式,并得到残差e.
2.用残差e对解释变量X及滞后残差e(-1)做辅助回归。
3.计算辅助回归的可决系数R^2,构建统计量LM=TR^2。LM=TR^2~χ²
2.构造子样本区间,建立回归模型。在sample菜单里定义区间,然后用OLS方法回归,分别得到残差平方和 和 。
3.求F统计量值。F
4.判断。比较F与
的大小,判断模型是否存在异方差。
White检验
基本思想:
如果存在异方差,其方差δ^2与解释变量有关系,分析δ^2是否与解释变量有某些形式的联系以判断异方差。
注意:较高的简单相关系数师多重共线性的充分条件而不是必要条件。特别师在多于两个解释变量的回归模型中,有时较低的简单相关系数也可能存在多重共线性。
方差扩大(膨胀)因子检验
多元线性回归模型,构造辅助回归。方差扩大因子VIF=1/(1-R^2),它的大小反映了解释变量之间是否存在多重共线性。VIF越大,多重共线性越严重。
各种序列相关检验方法比较
检验方法
操作思想
操作步骤
适用性
软件操作
图示法
对给定的回归模型直接用普通最小二乘法估计其参数,求出残差项e,以e作为随机项u的估计值,再描绘e的散点图,根据散点图来判断e的相关性。
两种方法:1.绘制e(-1)和e的散点图。用(e(-1),e)作为散布点绘图,若多数点落在一三象限,表明随即误差项u存在正自相关。否则,u存在负自相关。
2.Quick/graph,在series list对话框中输入“e(-1) e”,选择scatter’,得到e(-1)与e的散点图。
异方差、序列相关性、多重共线性的比较

(2)对多个解释变量模型,采用综合统计检验法
2判明存在多重共线性的范围
(1)判定系数检验法:构造辅助回归模型(Auxiliary Regression)并计算相应的拟合优度
(2)排除变量法(Stepwise Backward Regression )
(3)逐步回归法(Stepwise forward Regression)
后果
(Consequences)
1.参数估计量非有效(但,是线性的、无偏的)
2.变量的显著性检验失去意义(t检验、F检验)
3.模型的预测失效(对Y的预测误差变大,降低预测精度)
与异方差性引起的后果相同:
1.参数估计量非有效
2.变量的显著性检验失去意义
3.模型的预测失效
1.完全共线性下参数估计量不存在
异方差、序列相关性、多重共线性的比较( )
异方差(Heteroskedasticity)
(截面数据:Cross Sectional Data)
序列相关性(SerialCorrelation)
(时间序列数据:Time Series Data)
多重共线性(Multicollinearity)
(时间序列数据:Time Series Data)
,(X’X)-1不存在
2.近似共线性下OLS估计量非有效(估计方差变大)
(1)参数估计量经济含义不合理(变现似乎反常的现象)
(2)变量的显著性检验失去意义(t变小,R2变大,F变大)
(3)模型的预测功能失效(方差变大使预测“区间”变大)
检验
(Test)
1.图示法(散点图)
2.帕克检验(ParkTest)
3.第三类方法:减小参数估计量的方差
第五讲-多重共线性、异方差、自相关

表 4.3.3 中国粮食生产与相关投入资料
农业化肥施 粮食播种面 受灾面积 农业机械总
用量 X 1
(万公斤)
积X 2
(千公顷)
X3
(公顷)
动力X 4
(万千瓦)
1659.8
114047 16209.3
18022
1739.8
11288பைடு நூலகம் 15264.0
19497
1775.8
108845 22705.3
20913
0.9752 1.53
t值
0.85
19.6 3.35 -3.57
Y=f(X1,X2,X3,X4) -13056 6.17 0.42 -0.17 -0.09
0.9775 1.80
t值
-0.97 9.61 3.57 -3.09 -1.55
Y=f(X1,X3,X4,X5) -12690 5.22 0.40 -0.20
含义:解释变量的样本向量近似线性相关。
多重共线性来源:
(1)解释变量x受到同一个因素的影响; 例如:政治事件对很多变量都产生影响,这些变量同时上升 或同时下降。
(2)解释变量x自己的当期和滞后期;
(3)错误设定。
二、多重共线性的后果
1、完全共线性下参数估计量不存在
Y X
的OLS估计量为: βˆ (XX) 1 XY
1、检验多重共线性是否存在
(1)对两个解释变量的模型,采用简单相关系数法 求出X1与X2的简单相关系数r,若|r|接近1,则说
明两变量存在较强的多重共线性。
(2)对多个解释变量的模型,采用综合统计检验法
若 在OLS法下:R2与F值较大,但t检验值较小, 说明各解释变量对Y的联合线性作用显著,但各解 释变量间存在共线性而使得它们对Y的独立作用不 能分辨,故t检验不显著。
第二部分 异方差性、多重共线性和自相关

Ch5 双变量回归的区间估计与假设检验 (Interval estimation and hypothesis test) 第三章的OLS 得到如下模型:1224.45450.5091i i iY X X ββ∧∧=+=+上述模型中(MPC)2β∧=0.5091,与2β的差距有多大?(虽然E(2β∧)=2β)。
寻找δ和α(0<α<1)使随机区间(2β∧-δ,2β∧+δ)包含2β的概率为1-α 一、区间估计我们是否能找到一个区间,使其包含真值。
22222()1(,)P βδββδαβδβδ∧∧∧∧-≤≤+=--+为置信区间*置信区间是随机的。
二、12ββ和的置信区间2β的置信区间:222~(,())N V a r βββ∧∧222~(0,1)()z N se ββσβ∧∧-==因σ未知,则:22222()tseββσβββσ∧∧∧∧--===~遵循自由度为n-2的t分布。
用t分布建立2β的置信区间22()1p t t tααα-≤≤=-给定α,可以确定一个临界值2tα,t在此区间[-2tα,2tα]的概率为1-α。
22222()1()p t tseααββαβ∧∧--≤≤=-2222222222(()())1100(1)()p t se t set seαααβββββαβαββ∧∧∧∧∧⇒-≤≤+=-⇒-±2的置信区间为:同理可推出1β的置信区间:112()t seαββ∧∧±注:置信区间宽度的决定因素:22()t se αβ∧(==)在支出一收入一例中220.5091,()0.0357,8.5%se df ββα∧∧====取22.306t α=则;2(0.5091 2.3060.03570.5091 2.3060.0357)15%p β-⨯≤≤+⨯=-2(0.42680.5914)95%p β≤≤=解释:从长远看,在类似于(0.4268,0.5914)的每100个区间,将有95个包含真实的2β值。
第5章、违背基本假设的问题:多重共线性、异方差和自相关

第5章、违背基本假设的问题:多重共线性、异方差和自相关回顾并再次记住最小二乘法(LS)的三个基本假设:1.y=Xβ+ε2.Rank(X)=K3.ε|X~N(0,σ2I)§1、多重共线性(multicollinearity)1、含义及后果1)完全的多重共线性如果存在完全的多重共线性(perfect multicollinearity),即在X中存在不完全为0的a i,使得a1x1+…+a K x K=0即X的列向量之间存在线性相关。
因此,有Rank(X)<K,从而|X’X|=0,即b=(X’X)-1X’y不存在,OLS失效。
也即违背了基本假设2。
例子:C=β1+β2nonlabor income + β3salary +β4income + ε2)近似共线性常见为近似共线性,即a 1x 1+…+a K x K ≈0 则有|X’X|≈0,那么(X’X)-1对角线元素较大。
由于21|[,(')]b X N X X βσ- , 21|[,(')]k k kkb X N X X βσ- ,所以b k 的方差将较大。
例子:Longley 是著名例子。
2、检验方法1)VIF 法(方差膨胀因子法,variance inflation factor )第j 个解释变量的VIF 定义为21V IF 1j jR=-此处2j R 是第j 个解释变量对其他解释变量进行回归的确定系数。
若2j R 接近于1,那么VIF 数值将较大,说明第j 个解释变量与其他解释变量之间存在线性关系。
从而,可以用VIF 来度量多重共线性的严重程度。
当2jR 大于0.9,也就是VIF 大于10时,认为自变量之间存在比较严重的多重共线性。
K 个解释变量,就有K 个VIF 。
可以计算K 个VIF 的平均值。
若大于10,认为存在比较严重的多重共线性。
VIF方法直观,但是Eviews不能直接计算VIF的数值。
需要逐个进行回归,较为麻烦。
多重共线性-异方差-内生性-自相关总结对照表

一、加权最小二乘法 二、怀特异方差-稳健程序。 三、解释变量的代数变换
解释变量内生性 cov(x ji , ui ) 0 解 释 变 量 与随机误差项之间往往存 在某种程度的相关性。与 随机误差项相关的解释变 量称为内生解释变量。 1、遗漏变量 2、测量误差 3、错误的函数形式 4、联立性
1、解释变量的遗漏或省 略 2、模型函数形式设定错 误 3、原始数据的处理变换 4、经济变量的惯性作用 5、误差项本身存在自相 关 1.斜率系数 Bj 依然是线 性的和无偏的。
E(ˆj ) j
2、最小二乘估计量的方 差估计是有偏的。 3. 因 变 量 的 预 测 精 度 降低。
一、图示检验法 二、解释变量严格外生 条件下,误差项一阶自 相关检验。 ut=ut-1+vt 三、古典假定下,误差 项一阶自相关的 DW 检验 四、自变量非严格外生 条件下,误差项一阶自 相关检验。 五、误差项高阶自相关 的布殊-戈弗雷检验 BG 检验
定义 原因 后果 检验
处理
多重共线性 如果存在某解释变量是其他解释变量 的线性组合,则称为存在完全多重共线
性。 0 1x1 k xk 0
它们之间存在高度的线性相关性,称模 型存在近似(不完全)多重共线性。 0 1x1 k xk v 0 1.经济变量之间具有共同变化趋势。 2.变量之间存在经济联系。 3.模型中包含滞后变量。 4、样本数据自身原因。
异方差
var(u
|
xi )
2
i
常数
则称随机误差项 u 具有异方差性
1.模型中省略的解释变量。 2. 测量误差。 3、截面数据中总体各单位的差 异。 4、模型函数形式设定错误。 5、异常观测
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.如何输出结果/*ols regression*/proc reg data =new sse outest =outest1;model Y=x2 x3 x4 x5 x6 x7 /dw ;output out =out1 r =e p =ey;title 'ols regression';run ;(1) 由outest 输出的数据集outest1可输出衡量模型优劣的指标_RSQ_、_RMSE_,同时可输出模型的残差平方和_SSE_和回归的各参数的系数。
(2) 如何将残差序列和拟合值序列输出到一个数据集中,使用以下语句可以实现。
output out =out1 r =e p =ey;(3) 对于结构检验中分步回归求Chow 检验统计量,可分别输出每一步的_SSE_到一个数据集中,再合并数据集计算Chow 检验统计量。
2.多重共线检验对于方差膨胀因子检验法(VIF )、容忍度检验法(TOL )、条件数法在讲义二中已讲过,且较简单就不再赘述了。
现在主要说明一下主分量法。
proc princomp data =new out =result outstat =stat;proc print data =stat;title 'Multicollinearity test for princomp'; run ;proc reg data =new pcomit =1 outest =outestmc ;model Y= x2 x3 x4 x5 x6 x7; output out =result1 p =yyy r =rrr;run ;(1)outstat= stat ,生成一个包含均值、标准差、观测个数、相关阵或协差阵、特征值和特征向量的输出数据集;(2)进行主分量回归时,k 为不进入分析的主分量个数,model 后用因变量和所有的自变量回归,机理是选择的主分量是原自变量的线性组合,程序先将因变量和主分量回归,然后在程序显示结果上表示为因变量和原自变量的关系。
3.异方差检验(1) 模型存在异方差时,设其扰动项的方差协方差矩阵为⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡σσσ=Ωσ='=2n 22212...000.....000...00)u u (E )u (Var 故b 的协方差矩阵为121)X X ](X )(X [)X X ()b (Var --'''=Ωσ,要估计量∑'='=i i i 2i 2x x n 1n XX σΩσ∑,White 在1980年得出估计量∑'=ii i 2i 0x x e n 1S 是∑的一致估计量。
故得到101)X X (S )X X (n )b (Var .Est --''=,这时不能用同方差时的F检验,用WALD 检验量)Rb (}R ))b (Var .Est (R {)Rb (W 1-''=检验。
关键在于估计怀特估计量,程序为:proc reg data =new sse outest =outestacov;model Y=x2 x3 x4 x5 x6 x7 /acov ;output out =out1 r =e p =ey;title 'ols regression';run ;输出结果中的方差矩阵即为Est.V ar(b ),可通过计算求出统计量W 。
(2)White 检验与修正的Breusch-Pagan (Koenker-Bassett )检验/*white 检验和 Breusch-pagan-Goldfreg 检验*/proc model data =new;parms const bata2 bata3 bata4 bata5 bata6 bata7; Y=const+bata2*x2+bata3*x3+bata4*x4+bata5*x5+bata6*x6+bata7*x7; fit Y/white breusch =(1 x2 x3 x4 x5 x6 x7);run ;(3) 集团法(Goldfold-Quandt 检验)220:σσ=i H 同方差。
22i 1:H σ≠σ异方差。
将样本数据分为两个集团:2c n ~1-为第I 集团和n ~2c n +为第II 集团,对第I 集团和第II 集团分别回归,得到残差平方和分别为1e e '和2e e '。
程序为data goldqut;set out1;proc sort ;by x2 ;proc print ;run ;data m1 m2;set goldqut;if _n_<=9 then output m1; if 21<=_n_<=29 then output m2;proc print ;run ;通过排序和划分数据集后,可以根据定义逐步计算检验统计量。
(4) Glasjer 检验(a )假定。
根据经验判断,认为经济中异方差可能存在三种形式。
)Z (i 22i α'σ=σ线性2i 22i )Z (α'σ=σ二次函数i Z 22i e α'σ=σ指数(b )步骤。
将Y 与2X 、3X 、4X 、5X 、6X 、7X 用普通最小二乘法得到残差序列:n 21e ,...,e ,e 。
)Z ,...,Z ,Z (Z p 21=,i Z 选择原模型的解释变量2X 、3X 、4X 、5X 、6X 、7X 。
分别作以下三种回归:i p p 1102i Z ...Z e ν+α++α+α=i p p 110i Z ...Z e ν+α++α+α=i p p 110i Z ...Z e ln ν+α++α+α=得到α的估计量a ,计算Wald 统计量。
)p (~a ]}a [Var {a W 21α-χ'=现在的关键还是求出方差的估计量data a;set out1;eee=e*e;run ;proc print ;run ;proc reg data =a outest =outest3(keep=intercept x2 x3 x4 x5 x6 x7 ); model eee=x2 x3 x4 x5 x6 x7;output out =out3 p =p3 r =e3;run ;data t1;set outest3;inter=intercept;drop intercept;proc print ;run ; data b;set out3; newx21=e3*x2;newx31=e3*x3;newx41=e3*x4;newx51=e3*x5; newx61=e3*x6;newx71=e3*x7;newe31=e3;proc print ;run ;proc iml ; use b; read all into matrix1;x=2:8;y=14:20;z=1:29; nxx1=matrix1[z,x]; ns1=matrix1[z,y]; use t1;read all into matrix2; white1=inv(nxx1`*nxx1)*(ns1`*ns1)*inv(nxx1`*nxx1); wald1=matrix2*inv(white1)*(matrix2`);print white1 white2; quit ;(5) GLS开方可用程序 21a**.可根据定义自己编程,并不复杂。
4.自相关检验(1)DW 检验proc reg data =new sse outest =outest;model Y=x2 x3 x4 x5 x6 x7 /dw ;output out =out1 r =e p =ey;title 'ols regression'; run ;也可根据定义编程求解。
(2) B-G 检验(Breusch-Goldfreg 检验)假设检验:0H (无自相关)1H (有自相关)检验步骤:(1)将Y 与X 作普通最小二乘法回归得残差序列T e ,...,e ,e 21。
(2)将X 1,e ,...,e e p t t t --与作普通最小二乘法回归,回归得到2R(3)计算统计量)p (~TR 22αχ,T 为样本容量。
根据数据情况确定滞后阶数p ,可根据靳老师上课讲的确定方法确定。
通常时间序列资料受到季节因素的影响,取p=4。
由于其的检验方法简单,不详细讲解编程了。
(3)Box-Pierce 检验假设检验:0H (无自相关)1H (有自相关)检验步骤:(1)将Y 与X 作普通最小二乘法回归得残差序列T e ,...,e ,e 21。
(2)计算样本的自相关系数∑∑=-T t T t t e e e r 12211,∑∑=-T t T t t e e e r 12222,...,∑∑=-T t TL t t L e e e r 122 (3)检验统计量:)L (~r T Q Lj j 212χ∑== 如何对向量的分量求和,程序如下:proc means data =lagdata;var elage11 elage2 elage3;output out=sume sum=selage11 selage2 selage3;run;(5)存在自相关时的处理proc autoreg data=m1;model Y=x2 x3 x4 x5 /nlag=10backstep method=YW ;title'autoreg for YW';run;method=<>用来表示使用的估计方法,选项包括: ML,极大似然;YW,Yule-Walker 估计法;ITYW,迭代Yule-Walker估计法。
这些方法都是带滞后变量的后续内容,只要知道如何处理就可以了。