多元回归(多重共线-异方差-残差检验eviews-spss)
![多元回归(多重共线-异方差-残差检验eviews-spss)](https://img.360docs.net/imgdf/1q497w9qq9aoah5jsl0evyleammbalhj-f1.webp)
![多元回归(多重共线-异方差-残差检验eviews-spss)](https://img.360docs.net/imgdf/1q497w9qq9aoah5jsl0evyleammbalhj-92.webp)
数据处理:
4.3模型建立
设年末实有耕地面积,有效灌溉率,农用塑料薄膜使用量,农药使用量,农业机械总动力,农业从业人数,农业投资额分别为X i,X2丄,X7 ;农业产值为Y。在此我们假设上述七个变量都与农业产值有显著影响,在SPSS中用进入法对其做出预判。
表4-3回归预判表
屮钿非标准化系数标准化系数曰”厲共线性统计
模型T 显著性
B 标准误差Bata 允差VIF
(常数) 1.987E-15.018.000 1.000
年末实有耕地面积.225.291.225.775.464.004239.655有效灌溉率.208.116.208 1.797.115.02638.086农用塑料薄膜使用量-.396.489-.396-.810.445.001677.462农药使用量-.426.564-.426-.756.475.001899.494农业机械总动力.831.282.831 2.946.022.004225.582农业从业人数.024.179.024.136.895.01190.381农业投资额.197.140.197 1.401.204.01855.747因变量:农业产值
可以从表中得出回归方程:
Y 0.225X i 0.208X2 0.396X3 0.426X4 0.831X5 0.024X6 0.197X7
从显著性水平上看,小于0.05的只有一个农业机械动力,显然不能够准确
的表达出与农业产值之间的关系。根据表中的VIF值均大于10,其中四个大于了100,这说明模型中存在严重的多重共线性。并且在相关系数表中(附表1-2),我们也能够看出各个自变量之间相关系数较大,有较大的相关性。为了保证得到的回归模型能较好的反映真实意义,就要解决多重共线性问题。解决多重共线性我们一般使用逐步回归的方法。
4.3.1逐步回归
将标准化后的数据输入EVIEWS,首先找出与因变量拟合度最高自变量,的经过回归拟合可以得出7个变量的拟合优度,按降序排列如下表:
表4-4拟合优度表
变量拟合优度
X50.984325
X30.972272
X40.972024
X!0.906987
X70.903033
X20.84501
X60.684597
拟合优度的大小也能在一定程度上表现出自变量与因变量的影响大小。这里
X5是农业机械总动力,说明农业机械总动力对农业产值有较大的影响。在近年来江苏省整体经济发展迅速,科技水平大大提高,使农业的机械化水平发展迅速,机械设备的使用极大促进了农业产值的提高。
由表4 4得,Y与X5的拟合优度最高,故丫X5作为基本方程。依次按拟合优度降序排列进入模型,检验新进入的变量是否显著并且拟合优度是否提高。拟合优度排第二的是变量X3,所以将X进入基础模型。
X3进入基本方程,结果如下图:
Variable Coefficient Std Error l-Statistic Prob.
C 1.11E-070.034S29 3.17E-0& 1.0000
X5 1.0797240.353036 3.055130O.Q1Q
O
X3 -0.0670470,3530854).2466310,3094
R^squared 0.984404 Mean dependentvar ■6.67E*07
Adjusted R-squared0.981804 S.D. dependent var 1.000000
S.E. of regression0124S92 Akaike info crilenon -o ggissg
Sum squaredresid€,218350Schwarz criterion-0 850219
Log likelihood 10.43672 Hannan-Quinn crite r.-0.99333S
F'Statistic378.7033 Durbin Wats on stat 0.675013
Fnb(F-statistic) o.ooocoo
图4-1变量判断图
从图4 1的运行结果我们可以看出,X3的估计量对应的p 0.8094大于
0.05,不显著,所以X3不符合回归模型。X3是农膜使用量,可以看出其对农业产值的影响不显著。农膜主要使用在经济作物的种植中,近年来有部分农户利用地膜覆盖技术和塑料大棚进行种植、栽培瓜果蔬菜,获得了可观的收益,但是普及率不是很咼,是一个对农业产值的影响不是很大。
所以我们不选择变量X3 ,再将X4进入基本方程。
Variable Co&ffid&nt Std Error IStatistic Prob.
C SSQE-Ofi 0.0S4S66 0.44E-O7 1.0000
X50.9257 OS0,303519 2.079S03 0.0096
X4-0,056626 0303519 -0.1S6973 0 3548
R-squar&d0 9B4370 Mean dependent-6.67E-07
Adjusted R-sqjar&d0.981765 S.D. S E of regression0.135037 Aka Iks Info criterion-0.9S9696 Sum squared resid D218S1S SchiA/arzcritcnan-0.849076 Log likelihood1042265 Hannan-Quinn criter^0.991195 F-statistic377.879B Durbin-Watson stat 0.642S76 Pro b(F-statistic)0.000000 图4-2第一步逐步回归图 由图4 2可以看出,X4的估计量对应的p 0.8548值大于0.05,所以没有显著性,所以 X4同样不符合回归模型,故删去变量X4 o X4为农药使用量,所以农药使用量对农业产值没有显著影响。 再将X1,X7,X2,X6依次进入方程判断最优拟合方程,X i,X6不显著,X7显著,X2也是具有 显著性的,表明农业投资额,有效灌溉率对农业产值也有显著影响,但是农业投资额对农业 产值的影响大还是有效灌溉率对农业产值的影响大,还需要进一步比较。 表4-5拟合优度表 变量系数标准差t值p值拟合优度 常数-1.57E-070.022013-7.11E-06 1.0000 X50.765190.05788313.219690.00000.9937700 1 X70.2468760.057883 4.265180.0011 常数8.13E-100.03293 2.47E-08 1.0000 X20.9999220.0818 1.2215440.24530.986058 2 X50.9012980.081811.018320.0000 由表4 5可得,但由于模型Y X5 X的拟合优度为0.993770,模型Y X2X5 的拟合优度为 0.986058,比较他们两个的拟合优度,发现模型Y X5 X的拟合优度较大,故选则Y X5 X?作为基 本方程。然后按照第一次逐步回归法的步骤依次添加变量,并根据p值判断其显著性。 可以得出丫X5 X7 X2为最终方程,p值分别为p20.0107, p20.0000, p20.0001,均显著。经过逐步回归依次得到农业机械总动力,农业投资额,有效灌溉率对农业产值的影响较为显著。估计结果如下 图: Va liable Coefficient Std. Error ^Statistic Pro h C -159E-07 0 016690 -S4CE-06 1 0000 X20,129540 0 042232 3.067362 0 0107 X5 OS 32413 0.061997 1020083 o.aaoo X7 0.263208 0 044703 5.8879770.0001 R'Scjuared0.996&42 Mean dependenlvar*6 67E-O7 Adjusted R-squ 白ret!0 995726 S.D. dependent war looooao S.E of regression0.D65376 Akai Ke info criterion-2394155 Sum aqua red resid□ 047014Schwarz criterion-2205342 Log likelihood21.55616Hannan-Quinn criter,-2,355156 F-statiatic1083212Durbin-Wats on stat 1.9464&2 Prob(F-stab Stic) 0 000000 图4-3逐步回归模型结果图 从图4 3中可以得出系数: 0 1.59 10 7, 2 0.129540, 5 0.263208, 7 0.263208, 所以写出对应的估计方程为: Y 1.59 10 70.129540X20.632418X50.263208X7。 得出估计方程还要进行各项检验,只有通过检验才能说明我们得到的方程有效,才具有实际意义。 4.3.2 F检验 F检验的原假设和备择假设如下: H 0 :0 1 L n 0; H1: i(i 0,1,L ,n)不全为零。 从图4 3中可以看出F检验(F-statistic)对应的p值小于0.05,所以拒绝H0,所以我们得出的估计方程存在显著的线性关系。 4.3.3 t检验 t检验的原假设和备择假设为: H °: i 0,i 1丄,9 ; H o : i 0 ; H 1 : i 0 o 由图4 3可以看出变量X 2 X 5 X 7分别对应的 p 2 0.0107, p 2 0.0000, p 2 0.0001 均小于 0.05,拒绝原假设 H 0。 同样可以看模型得出的t 值,t 2 3.067362, t 5 10.20083力 5.887977,通过 查找t 分布表得,用t 值与t 0.05,2(1 1) 2.201进行比较,如果t i t 0㈣2(11),则拒绝原 假设所以回归系数显著。变量X 5X 7X 2对丫有显著影响。 4.3.4异方差检验 由于异方差的存在使得最小二乘估计量不再是最好线性无偏估计量, 会导致 模型的残差不再是同方差的,所以要对模型进行异方差检验。 (1)图示法 此方法是较为原始的一种检验异方差的方法, 可以直观的看出残差平方的散 点图是否与样本数据X i 或丫有明显的关系,若随着 X i 或丫的变化而变化,那么 就说明存在异方差性。 这里我们可以看出残差平方的散点图呈不规则状, 散乱分布,所以我们得出 的回归模型不存在异方差性。 (2)怀特(white )检验 可以看出模型中有三个解释变量,那么模型辅助回归可以写成: 2 2 2 U t 1 X t1 2 X t2 3 X t3 4 X t1 5X t2 6 X t3 7 X t 〔X t2 8 X t 〔X t3 9 X t2X t3 t 其原假设和备择假设分别为: 图4-4异方差散点图 H1: 1,L , 9中至少一个不为零 怀特检验的运行图如下: 4-5 给定显著性水平0.05 , obs*R -squared对应的p 0.5587大于0.05 ,(错了要改正))拒绝原假设,故不存在异方差。 4.3.5自相关检验 误差存在自相关时,模型中的系数用最小二乘估计计算会不准确,往往会算出的系数的真实方差值和误差项的方差值会偏小。为了检验得到的方程的准确性,我们进行自相关检验。 DW检验的原假设和备择假设分别为: H o : 0 (U t不存在自相关) H i:0( U t存在一阶自相关) R-squared0.996642Mean depend?nt?ar知7M7 Adjusted R-squared0.99572&S.D. dependent var 1.000000 S.E. of regression O.OE537B Akaike info criterion-2.394155 Sum squaredresid0.047014 Sdiwa rz criterion-2.20C342 Log likelihood21 95616Hsnnan-Duinn crite r.-2.396166 F-statistic1083 212 Durbin-Watson stat 1.946452 statistic) 0 000000 表4-6 DW检验运行结果图 从表中得出,DW值为1.964452,通过查找DW表可得,当n二15,k = 3时, d L 0.82, d u 1.75,所以DW值在区间(1.75,2.25)之间。这说明所建立的线性回归模型无自相关现象,不需要修正DW值检验。 4.3.6残差检验 Series: R&sidjais Sample 20 OG 201+ Obs&rvaticns 1 E %怕即-5.1Se-18 Nfldtan-Q.QC1C97Z MaMimum0.07165& Minimum-Q.QS1K3 SM,Dov.0J111E7 Skegness 0.133553 Kurtosis Jarqiie-B&ra047937+ Probability0.7M7+ 图4-7残差分析图 由于JB对应的p 0.76874大于0.05,所以拒绝原假设。从残差分析图上也可以直观的看出残差直方图中间高,两边低,基本服从正态分布。所以我们估计的线性回归模型是有意义的。 4.3.7组内预测 对样本内数据进行组内预测: 由图4-8可知,预测值和真实值几乎完全重合,且残差在零水平线上下波动,说明模型总体上效果较好。