第六章 F检验和多重比较

第六章 F检验和多重比较
第六章 F检验和多重比较

回顾上次课方差分析基本思想和平方和与自由度的分解知识,F 检验和多重比较概念。

四、统计假设的显著性检验

方差分析的目的:

确定各种原因(处理效应、试验误差)在总变异中所占的重要程度。

处理间的方差(st2 )可以作为处理效应方差的估计量

处理内的方差(se2 )可以作为试验误差差异的估计量

二者相比,如果相差不大,说明不同处理的变异在总变异中所占的位置不重要,也就是不同试验处理对结果影响不大。

如果相差较大,也就是处理效应比试验误差大得多,说明试验处理的变异在总变异中占有重要的位置,不同处理对结果的影响很大,不可忽视。

从第三章我们已经知道,从一正态总体(μ ,σ2 )中随机抽取两个样本,其样本方差s12 与s22 的比值为F :

试验误差 F = s

12 s 22

其F 分布曲线随着df1 和df2 的变化而变化。由于F 值表是一尾的( F 值的区间〔0,+∞) ),一般将大方差作分子,小方差作分母,使F 值大于1,因此,表上df1 的代表大方差自由度, df2 代表小方差自由度。

用处理效应的方差(st2 )和实验误差的方差(se2 )比较时,我们所做的无效假设是假设处理效应的变量和实验误差的变量是来自同一正态总体的两个样本,因此处理效应的方差(st2 )和实验误差的方差(se2 )的比值就是F 值,即

在进行不同处理差异显著性的F 检验时,一般是把处理间方差作为分子,称为大方差,误差方差作为分母,称为小方差。

无效假设是把各个处理的变量假设来自同一总体,即处理间方差不存在处理效应,只有误差的影响,因而处理间的样本方差σt2 与误差的样本方差σe2 相等:

Ho :σt2 = σe2 HA :σt2 ≠ σe2

无论无效假设是否为真,se2 均为总体方差σ2的估计。

只有无效假设为真时,st2 (=se2 )才是总体方差σ2 的估计;当无效假设不真时,将st2 (>se2 )是一个比σ2 更大的估计值。

=

试验误差

无效假设是否成立,要看计算的F 值在F 分布中出现的概率。

与t 检验相类似,F 检验是把计算所得的F 值与临界F α值比较,判断由误差造成的概率大小,最后作出统计推断。

我们确定显著标准水平α后,从F 值表中查出在dft 和dfe 下的F α值

五、多重比较

多重比较(multiple comparisons ):要明确不同处理平均数两两间差异的显著性,每个处理的平均数都要与其他的处理进行比较,F < F 0.05 P >0.05 F > F 0.05 P <0.05 F > F 0.01 P <0.01

综上所述,可归纳成方差分析表(analysis of variance table)

s e 2 k(n-1) SS e 误差或处理内

nk-1 SS T 总和

s t 2 k-1 SS t 处理间

F 均方 自由度 平方和 变异来源

F = s t 2 s e 2

这种差异显著性的检验就叫多重比较。

统计上把多个平均数两两间的相互比较称为多重比较。

最小显著差数法:least significant difference LSD法

最小显著极差法:least significant ranges LSR法

LSD法的实质是两个平均数相比较的t检验法。

LSR法克服了LSD法的局限性,采用不同平均数间用不同的显著差数标准进行比较,它可用于平均数间的所有相互比较。

(一)最小显著差数法(LSD法)

1.检验的方法

(1)先计算出达到差异显著的最小差数,记为LSD

α

(2)用两个处理平均数的差值绝对值与LSDα比较:

2.结果表示方法

标记字母法:首先将全部平均数从大到小依次排列。然后在最大的平均数上标字母a,将该平均数与以下各平均数相比,凡相差不显著的(< LSDα)都标上字母a,直至某个与之相差显著的则标字母b。再以该标有b的平均数为标准,与各个比它大的平均数比较,凡差数差异不显著的在字母a的右边加标字母b。然后再以标b的最大平均数为标准与以下未曾标有字母的平均数比较,凡差数差异不显著的继续标以字母b,直至差异显著的平均数标字母c,再与上面的平均数比较。如此重复进行,直至最小的平均数有了标记字母,并与上面的平均数比较后为止。

在各平均数间,凡有一个相同标记字母的即为差异不显著,凡具

不同标记字母的即为差异显著。

差异极显著标记方法相同,但用大写字母标记。

梯形法: 又叫三角形法,是将各处理的平均数差数按梯形列于表中,并将这些差数和LSD α值比较:

LSD 法应用的说明 1. 进行LSD 检验时,这一对平均数的比较是检验之前已经指定的,且经F 检验证实平均数间的差异已达到显著之后,才可以进行LSD 检验。

2. LSD 法实质上是t 检验,但LSD 法是利用F 检验中的误差自由度dfe 查t 临界值,利用误差方差se2 计算平均数差异标准误,从一定程度上缓解了t 检验过程中的三个弊病,但是LSD 法仍然存在提高犯α错误的概率,所以进行LSD 检验必须限制其应用范围。

3. LSD 法适用于各处理组与对照组的比较,不适用于处理组间的比较。

(二)最小显著极差法(LSR 法):是指不同平均数间用不同的显著差数标准进行比较,可用于平均数间的所有相互比较。

新复极差法:(New multiple rang method )SSR 法:SSR 法又称Duncan 法。无效假设H0为:

μA –μB = 0

(1)按相比较的样本容量计算平均数标准误:

(2)根据误差方差se2所具有自由度dfe 和比较所含平均数个数M ,查SSR 值(附表8),然后算出最小显著极差值(LSR 值)。

(3)将各平均数按大小顺序排列,用各个M 值的LSR α值,检验各平均数间极差的显著性。

q 检验:(q-test ):也称Newman-keuls 检验,方法与新复极差法相似,其区别仅在于计算最小显著极差LSR α时不是查SSR α,而是查q α值(附表9)

q0.05 = 3. 08, q0.01=4.32。同理可查M =3,M=4时的 当n 1 =n 2=n 时 √ x S = s e 2 n LSR α = SSR α · x 1 S LSR α = q α · x 1 S 还对上例作q 检验: x 1 S =1.5094,查q 值表,df e =12,M=2时

qα值,算出最小显著极差LSR。

在实际计算中:

对于精度要求高的试验——q检验法

一般试验——SSR检验法

试验中各个处理均数皆与对照相比的试验——LSD检验法

方差分析的基本步骤

(1)将样本数据的总平方和与总自由度分解为各变异因素的平方和与自由度;

(2)列方差分析表进行F检验,以弄清各变异因素在总变异中的重要程度;

(3)对各处理平均数进行多重比较。

(完整版)多重共线性检验与修正

问题: 选取粮食生产为例,由经济学理论和实际可以知道,影响粮食生产y的因素有:农业化 肥施用量x1,粮食播种面积x2,成灾面积x3,农业机械总动力x4,农业劳动力x5,由此建 立以下方程:y=β0+β1x1+β2x2+β3x3+β4x4+β5x5,相关数据如下: 解:1、检验多重共线性 (1)在命令栏中输入:ls y c x1 x2 x3 x4 x5,则有; 可以看到,可决系数R2和F值都 很高,二自变量x1到x5的t值 均较小,并且x4和x5的t检验 不显著,说明方程很可能存在多 重共线性。 (2)对自变量做相关性分析: 将x1——x5作为组打开,view——covariance analysis——correlation,结果如下: 可以看到x1和x4的相关系数 为0.96,非常高,说明原模型 存在多重共线性

2、多重共线性的修正 (1)逐步回归法 第一步:首先确定一个基准的解释变量,即从x1,x2,x3,x4,x5中选择解释y 的最好的一个建立基准模型。分别用x1,x2,x3,x4,x5对y 求回归,结果如下: 在基准模型的基础上,逐步将x2,x3等加入到模型中, 加入x2,结果: 从上面5个输出结果可以知道,y 对x1的可决系数R2=0.89(最高),因此选择第一个方程作为基准回归模型。即: Y = 30867.31062 + 4.576114592* x1

再加入x3,结果:再加入x4,结果: 拟合优度R2=0.961395,显著提高; 并且参数符号符合经济常识,且均显著。 所以将模型修改为: Y= -44174.52+ 4.576460*x1+ 0.672680*x2 拟合优度R2=0.984174,显著提高; 并且参数符号符合经济常识(成灾面积越大,粮食产量越低),且均显著。 所以将模型修改为: Y=-12559.35+5.271306*x1+0.417257*x2-0.212103*x3 拟合优度R2=0.987158,虽然比上一次拟 合提高了; 但是变量x4的系数为-0.091271,符号不 符合经济常识(农业机械总动力越高, 粮食产量越高),并且x4的t检验不显著。 因此应该从模型中剔除x4。

多重共线性的检验与修正

计量经济学实验报告成绩 课程名称计量经济学指导教师苏卫东实验日期 2014-6-24 院(系)财政与金融学院专业班级金融二专实验地点实验楼八机房 学生姓名单一芳学号 201212041018 同组人无 实验项目名称多重共线性的检验与修正 一、实验目的和要求 1、理解多重共线性的含义与后果 2、掌握Eviews软件的操作和多重共线性的检验与修正 二、实验原理 Eviews软件的操作和多重共线性的检验修正方法 三、主要仪器设备、试剂或材料 Eviews软件,计算机 四、实验方法与步骤 1、准备工作:建立工作文件,并输入数据 CREATE A 1974 1981; DATA Y X1 X2 X3 X4 X5 2、OLS估计: LS Y C X1 X2 X3 X4 X5; 3、计算简单相关系数 COR X1 X2 X3 X4 X5 4、多重共线性的解决 LS Y C X1; LS Y C X2; LS Y C X3; LS Y C X4; LS Y C X5;

LS Y C X1 X3; LS Y C X1 X3 X2; LS Y C X1 X3 X4; LS Y C X1 X3 X5 五、实验数据记录、处理及结果分析 1、建立工作组,输入以下数据: obs Y X1 X2 X3 X4 X5 1974 98.45 560.2 153.2 6.53 1.23 1.89 1975 100.7 603.11 190 9.12 1.3 2.03 1976 102.8 668.05 240.3 8.1 1.8 2.71 1977 133.95 715.47 301.12 10.1 2.09 3 1978 140.13 724.27 361 10.93 2.39 3.29 1979 143.11 736.13 420 11.85 3.9 5.24 1980 146.15 748.91 497.16 12.28 5.13 6.83 1981 144.6 760.32 501 13.5 5.47 8.36 1982 148.94 774.92 529.2 15.29 6.09 10.07 1983 158.55 785.3 552.72 18.1 7.97 12.57 1984 169.68 795.5 771.16 19.61 10.18 15.12 1985 162.14 804.8 811.8 17.22 11.79 18.25 1986 170.09 814.94 988.43 18.6 11.54 20.59 1987 178.69 828.73 1094.65 23.53 11.68 23.37 2、OLS估计 LS Y C X1 X2 X3 X4 X5 Dependent Variable: Y Method: Least Squares Date: 06/24/14 Time: 18:45 Sample: 1974 1987 Included observations: 14 Variable Coefficient Std. Error t-Statistic Prob. C -3.650950 30.00144 -0.121692 0.9061 X1 0.125752 0.059087 2.128275 0.0660 X2 0.072656 0.037445 1.940317 0.0883 X3 2.681426 1.258639 2.130418 0.0658 X4 3.405866 2.444896 1.393052 0.2011 X5 -4.430561 2.194164 -2.019248 0.0781 R-squared 0.970397 Mean dependent var 142.7129

多重共线性检验与修正

多重共线性检验与修正 数据来源:《中国统计年鉴2014》12-10、4-3、12-4、12-5、12-8、 Eviews操作: 1、基本操作: (1)录入数据:命令:data y l m f a ir (y代表粮食产量,l代表第一产业劳动力数量,m代表农业机械总动力,f代表化肥施用量,a代表农作物总播种面积,ir为有效灌溉面积/农作总播种面积得出的灌溉率) (2)做线性回归:命令:LS y c l m f a ir 2、检验多重共线性 (1)方差膨胀因子判断法 在生成的线性回归eq01中,view—coefficient diagnostics—variance inflation factors 看生成表格中的Centered VIF,发现L、M、F、A、IR的方差膨胀因子都很大,说明存在严重多重共线性。(eg:L的Centered VIF指以L为因变量,M、A、F、IR为自变量所做出的辅助回归的判定系数R2,然后1/1-R2得出的值。) (由课本内容可知,当完全不共线性时,VIF=1;完全共线性时,VIF=正无穷)(2)相关系数矩阵判断法 命令:cor l m f a ir 这个是通过看各个解释变量之间的相关系数来判断是否存在多重共线性的。可以看到大多数解释变量之间两两相关系数都大于0.9。相关系数极大说明解释变量之间存在很高的相关性,因而也就很可能存在共线性。 3、修正多重共线性 (1)逐步回归排除引起共线性的变量 ①菜单栏操作 在生成的线性回归eq01中,Estimate—Method—STEPLS 接下来会出现两个框框,上面的框框是固定住不做逐步回归的变量,一般设定为y和c

所有计量经济学检验方法(全)

计量经济学所有检验方法 一、拟合优度检验 可决系数 TSS RSS TSS ESS R - ==12 TSS 为总离差平方和,ESS 为回归平方和,RSS 为残差平方和 该统计量用来测量样本回归线对样本观测值的拟合优度。 该统计量越接近于1,模型的拟合优度越高。 调整的可决系数)1/() 1/(12---- =n TSS k n RSS R 其中:n-k-1为残差平方和的自由度,n-1为总体平方和的 自由度。将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响。 二、方程的显著性检验(F 检验) 方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。 原假设与备择假设:H 0:β1=β2=β3=…βk =0 H 1: βj 不全为0 统计量 )1/(/--= k n RSS k ESS F 服从自由度为(k , n-k-1)的F 分布,给定显著性水平α,可得到临界值 F α(k,n-k-1),由样本求出统计量F 的数值,通过F>F α(k,n-k-1)或F ≤F α(k,n-k-1)来拒绝或接受原假设H 0,以判定原方程总体上的线性关系是否显著成立。 三、变量的显著性检验(t 检验) 对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中。 原假设与备择假设:H0:βi =0 (i=1,2…k );H1:βi ≠0 给定显著性水平α,可得到临界值t α/2(n-k-1),由样本求出统计量t 的数值,通过 |t|> t α/2(n-k-1) 或 |t|≤t α/2(n-k-1) 来拒绝或接受原假设H0,从而判定对应的解释变量是否应包括在模型中。 四、参数的置信区间 参数的置信区间用来考察:在一次抽样中所估计的参数值离参数的真实值有多“近”。 统计量 )1(~1??? ----'--= k n t k n c S t ii i i i i i e e βββββ 在(1-α)的置信水平下βi 的置信区间是 ( , ) ββααββ i i t s t s i i -?+?2 2 ,其中,t α/2为显著性水平 为α、自由度为n-k-1的临界值。 五、异方差检验 1. 帕克(Park)检验与戈里瑟(Gleiser)检验 试建立方程:i ji i X f e ε+=)(~2 或 i ji i X f e ε+=)(|~| 选择关于变量X 的不同的函数形式,对方程进行估计并进行显著性检验,如果存在某一种函数形式,使得方程显著成立,则说明原模型存在异方差性。

多重共线性问题的检验和处理

山西大学 实验报告 实验报告题目:多重共线性问题的检验和处理 学院: 专业: 课程名称:计量经济学 学号: 学生姓名: 教师名称:崔海燕 上课时间:

一、实验目的: 熟悉和掌握Eviews在多重共线性模型中的应用,掌握多重共线性问题的检 验和处理。 二、实验原理:1、综合统计检验法; 2、相关系数矩阵判断; 3、逐步回归法; 三、实验步骤: (一)新建工作文件并保存 打开Eviews软件,在主菜单栏点击File\new\workfile,输入start date 1978和end date 2006并点击确认,点击save键,输入文件名进行保存。 (二)输入并编辑数据 在主菜单栏点击Quick键,选择empty\group新建空数据栏,根据理论和经 验分析,影响粮食生产(Y)的主要因素有农业化肥施用量(X1)、粮食播种面积(X2)、 成灾面积(X3)、农业机械总动力(X4)和农业劳动力(X5),其中成灾面积的符号为 负,其余均应为正。下表给出了1983——2000中国粮食生产的相关数据。点击name 键进行命名,选择默认名称Group01,保存文件。 Y X1 X2 X3 X4 X5 1983 38728 1660 114047 16209 18022 31151 1984 40731 1740 112884 15264 19497 30868 1985 37911 1776 108845 22705 20913 31130 1986 39151 1931 110933 23656 22950 31254 1987 40208 1999 111268 20393 24836 31663 1988 39408 2142 110123 23945 26575 32249 1989 40755 2357 112205 24449 28067 33225 1990 44624 2590 113466 17819 28708 38914 1991 43529 2806 112314 27814 29389 39098 1992 44264 2930 110560 25895 30308 38669 1993 45649 3152 110509 23133 31817 37680 1994 44510 3318 109544 31383 33802 36628 1995 46662 3594 110060 22267 36118 35530 1996 50454 3828 112548 21233 38547 34820 1997 49417 3981 112912 30309 42016 34840 1998 51230 4084 113787 25181 45208 35177 1999 50839 4124 113161 26731 48996 35768 2000 46218 4146 108463 34374 52574 36043 2001 45264 4254 106080 31793 55172 36513 2002 45706 4339 103891 27319 57930 36870 2003 43070 4412 99410 32516 60387 36546

检验多重共线性

实验目的:在回归模型牵涉到多个自变量的时候,自变量之间可能会相互关联,即他们之间存在有多重共线性,本节实验的实验目的是如何用Eviews检测各个自变量之间是否存在的多重共线问题以及如何对多重共线性进行修正。 我们实验的原始数据如图所示,判断钢产量y与生铁产量X1,发电量X2,固定资产投资X3,国内生产总值X4,铁路运输量X5之间的关系。 实验步骤: 1:打开Eviews7.0. →File→Workfile,选择年度数据,在初始日期和结束日期分别输入“1978”和结束年份“1997”。点击“OK”确定。 2:在新建工作表中,点击Proc→Import→Read,选定需要导入的Excel工作表,在“Upper-left data cell”中输入数据在Excel中的初始位置“B2”,在“Excel 5+….”中输入“sheet1”,在“Name for serises、”中输入“y x1 x2 x3 x4 x5”点击“OK”即可。 3:在Eviews空白处输入:“ls y c x1 x2 x3 x4 x5”,回车即可,结果如下。

Dependent Variable: Y Method: Least Squares Date: 04/19/13 Time: 11:24 Sample: 1978 1997 Included observations: 20 Variable Coefficient Std. Error t-Statistic Prob. C 354.5884 435.6968 0.813842 0.4294 X1 0.026041 0.120064 0.216892 0.8314 X2 0.994536 0.136474 7.287380 0.0000 X3 0.392676 0.086468 4.541271 0.0005 X4 -0.085436 0.016472 -5.186649 0.0001 X5 -0.005998 0.006034 -0.994019 0.3371 R-squared 0.999098 Mean dependent var 5153.450 Adjusted R-squared 0.998776 S.D. dependent var 2512.131 S.E. of regression 87.87969 Akaike info criterion 12.03314 Sum squared resid 108119.8 Schwarz criterion 12.33186 Log likelihood -114.3314 Hannan-Quinn criter. 12.09145 F-statistic 3102.411 Durbin-Watson stat 1.919746 Prob(F-statistic) 0.000000 经查表可知,t(17)=1.345,结合上表可知,x1和x5没有通过t检验,而且F\检验较大,估计解释变量之间可能存在着多重共线性。相关性如下图所示: 可知X1 X2 X3 X4 X5,之间存在着较强的多重共线

多重共线性的判断与修正

多重共线性的判断与修正 一、多重共线性的判断 1. 综合统计检验法 LS Y C X1 X2 对模型进行OLS, 得到参数估计表 (1) 当2,R F 很大,而回归系数的t 检验值小于临界值时,可判定该模型存在多重共线性。 (2) 当完全共线性存在时,模型的OLS 无法进行,Eviews 会提示:矩阵的逆(1()T X X -)不 存在。 2. 简单相关系数检验法 LS Y C X1 X2 对模型进行OLS, 得到参数估计表中的2 R . 点击:Quick/Group Statistics/Correlation 在对话框中输入:X1 X2 , 点击OK, 即可得到简单相关系数矩阵 检验:若存在 i j x x r 接近于1, 或 22,i j x x r R >,则说明,i j x x 之间存在着严重的相关性。 3. 辅助回归法(方差扩大因子法) 设 121112...(1)(1)...j j k Xj X X X j X j Xk V ααααα-+=+++-+++++ (j ) LS Xj X1 X2…Xk 对(j) 进行OLS, 得到参数估计表 检验:若表中 (2,1)F F k n k α>--+, 则可确定存在多重共线性。 或者(方差扩大因子法):计算211j j VIF R =-, (2j R 为以上方程的可决系数), 若10j VIF ≥, 则可确定存在多重共线性。 4. 逐步回归法 1) 首先计算被解释变量对每个解释变量的回归方程,得到基本回归方程: LS Y C Xi OLS ,得到基本回归方程(i), i = 1,2,…,k 2) 从这些基本回归方程中选出最合理的方程, 即,2 R 取值最大,且t 检验显著。比方说,0j Y Xj ββ=+ 3) 在这个选出的方程中增加新的解释变量, 再进行OLS 分析: LS Y C Xj Xi ( i= 1,2,…,j-1, j+1,…k) 判断: 如果新加入的解释变量对2 R 改进最大, 且每个系数又是t 统计显著,则保留这个新的解释变量。转4) 如果新加入的解释变量不仅使2R 变小, 且t 统计不显著,以至于使某些系数达到不能

拟合优度检验及其应用

拟合优度检验及其应用 辅修专业:经济学 12级法学1班 201210141419 刘金锋摘要:数理统计的两个主要形式就是参数估计和假设检验,在这里,我 们只介绍后者——假设检验,其中又只对假设检验中的拟合优度检验假设作介绍。假设检验根据样本分布族的数学形式已知与否,可分为参数假设检验和非参数假设检验,作为非参数假设检验之一的拟合优度检验,又是检验理论分布假设的重要方法。为了帮助我们更好了解拟合优度检验,本文将首先给我们介绍拟合优度检验的数学定义。其次,重点介绍时下讨论最多的两种 拟合优度方法——2 Pearsonχ检验和Kolmogorov Smirnov -检验,并穿插具体实例解答来给我们直观的印象,帮助理解。最后,考虑到检验过程会很复杂,本文在最后一节讲述了这两种检验的软件实现,结合实例,编写运行程序。关键词:假设检验;非参数假设检验;拟合优度;2 Pearsonχ检验; -检验 Kolmogorov Smirno 内容安排 1.拟合优度检验的提出 2.几种常用拟合优度检验介绍 2.1.2 Pearsonχ检验 2.1.1.理论分布完全已知情况 1.随机变量X是离散型 2.理论分布为确定分布 2.1.2.理论分布带有未知参数 2.2.Kolmogorov Smirnov -检验 2.3.2 Pearsonχ检验与Kolmogorov Smirnov -检验的比较 3.拟合优度检验实例分析 4.拟合优度检验的软件实现 4.1.2 Pearsonχ检验的软件实现 4.2.Kolmogorov Smirnov -检验的软件实现 5.参考文献

1.拟合优度检验的提出[1] 假设检验问题就是通过从有关总体中抽取一定容量的样本,利用样本去检验总体分布是否具有某种特性。假设检验问题大致分为两大类: (1)参数型假设检验:即总体的分布形式已知(如正态、指数、二项分布等),总体分布依赖于未知参数(或参数向量)θ,要检验的是有关未知参数的假设。例如,总体X ~N (α,2б), α未知,检验 0010::H a a H a a =?≠ 或 0010::H a a H a a ≤?>. (2)非参数型假设检验:如果总体分布形式未知,此时就需要有一种与总体分布族的具体数学形式无关的统计方法,称为非参数方法。例如,检验一批数据是否来自某个已知的总体,就属于这类问题。 正如摘要所说,我们在本节只讨论非参数型假设检验问题,常用的非参数假设检验方法有:符号检验、符号秩和检验、秩和检验及Fisher 臵换检验和拟合优度检验。本文又只对拟合优度检验做深入介绍。 拟合优度检验问题的提法如下:设有一个一维或多维随机变量X ,令 1,,n X X …为总体X 中抽取的简单样本,F 是一已知的分布函数。要利用样本1,,n X X …检验假设 0:..H r v X 的分布为F , (1.1.1) 其中F 常称为理论分布。 导出这种假设检验的想法大致如下:设法提出一个反映实际数据1,,n X X …与理论分布F 偏差的量1(,,;)n D D X X F =…。如果D 较大,如D C ≥,则认为理论分布F 与数据1,,n X X …不符,因而否定0H 。然而这种“非此即彼”的提法常显得有点牵强。因为一般来说,理论和实际没有截然的符合或不符合。更恰当的提法是实际数据与理论分布符合的程度如何?因此通常对0H 的检验不是以“是”或“否”来回答,而是提供一个介于0和1之间的数字作为回答,即用此数作为符合程度的度量刻画。就具体样本算出D 之值,记为0d 。称下列的条件概率: 000()()p d P D d H =≥| 为在选定的偏离指标D 之下,样本与理论分布的拟合优度。0()p d 越接近1,表示样本与理论分布拟合的越好,因而原假设越可信。反之,它越接近0,则原假设0H 越不可信。如果它低到指定的水平α之下,则就要否定0H 了。

第7章 多重共线性

第7章 多重共线性 习 题 一、单项选择题 1.如果回归模型中解释变量之间存在完全的多重共线性,则最小二乘估计量(A ) A.不确定,方差无限大 B.确定,方差无限大 C.不确定,方差最小 D.确定,方差最小 2.多元线性回归模型中,发现各参数估计量的t 值都不显著,但模型的 F 值确很显著,这说明模型存在( A ) A .多重共线性 B .异方差 C .自相关 D .设定偏误 3.逐步回归法既检验又修正了( D ) A .异方差性 B.自相关性 C .随机解释变量 D.多重共线性 4.如果模型中的解释变量存在完全的多重共线性,参数的最小二乘估计量是( C ) A .无偏的 B. 有偏的 C. 不确定 D. 确定的 5.设线性回归模型为 ,下列表明变量之间具有完全多 重共线性的是( A ) A . B . C . D . 其中v 为随机误差项 6.简单相关系数矩阵方法主要用于检验( D ) A .异方差性 B.自相关性 C .随机解释变量 D.多重共线性 7.设为解释变量,则完全多重共线性是( A ) 8.下列说法不正确的是( C ) A. 多重共线性产生的原因有模型中大量采用滞后变量 B. 多重共线性是样本现象 ,)(22很大或R R 01122i i i i Y X X u βββ=+++1202*0*0i i X X ++=1202*0*0i i X X v +++=1200*0*0 i i X X ++=1200*0*0 i i X X v +++=21,x x 221211211 .0.0 21 . 0(.0 2x x A x x B x e C x x v v D x e +==++=+=为随机误差项)

多重共线性的检验和解决的实验报告1

实验三报告 一、实验目的: 1.掌握多重共线性的识别方法 2.能针对具体问题提出解决多重共线性问题的措施 二、实验步骤: 1 相关系数法检验多重共线性 ( 1 )点击Eviews6.reg注册然后点击Eviews6.exe (2) 在file —new —workfile 在start date 和end date 输入1960、1982点击确定 (3) 在proc中找到import输入Excel 表并在弹出的对话框中输入Y X2 X3 X4 X5 X6 检查数据输入是否正确 (4)在Eviews 编辑框中输入ls Y C X1 X2 X3 X4 进行回归,结果如下t值 检验不符合。说明解释变量之间很可能存在多重共线性。 2 画图法检验是否存在多重共线性: 在quick 中点击Graph在弹出的对话框中输入X1 Y 、X2 Y、X3 Y X4 Y点击确定,分别选择scatter 选择带回归线,分别可以看出各自变量与Y之间的线性关系,也说明解释变量之间可能存在多重共线性。

综合以上两种检验说明解释变量之间存在多重共线性。

3多重共线性的补救措施(逐步回归法): (1)分别对四个自变量进行回归,选拟合优度最大的X1作为基本方程即Y=-12.45554+0.117845X1,采用逐步回归法分别对其进行回归

通过以上实验得到i i i x x x 321i 1856.38818.11036.05926.127y ?+-+-= Y-X1-X2(留,可决系数升高,符号正确)-X3(留,可决系数升高,符号正确) -X4(删,可决系数升高,X4的系数不显著)

(完整word版)多重共线性问题的几种解决方法

多重共线性问题的几种解决方法 在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之 间不存在线性关系,也就是说,解释变量X 1,X 2 ,……,X k 中的任何一个都不能 是其他解释变量的线性组合。如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。 这里,我们总结了8个处理多重共线性问题的可用方法,大家在遇到多重共线性问题时可作参考: 1、保留重要解释变量,去掉次要或可替代解释变量 2、用相对数变量替代绝对数变量 3、差分法 4、逐步回归分析 5、主成份分析 6、偏最小二乘回归 7、岭回归 8、增加样本容量 这次我们主要研究逐步回归分析方法是如何处理多重共线性问题的。 逐步回归分析方法的基本思想是通过相关系数r、拟合优度R2和标准误差三个方面综合判断一系列回归方程的优劣,从而得到最优回归方程。具体方法分为两步: 第一步,先将被解释变量y对每个解释变量作简单回归: 对每一个回归方程进行统计检验分析(相关系数r、拟合优度R2和标准误差),并结合经济理论分析选出最优回归方程,也称为基本回归方程。

第二步,将其他解释变量逐一引入到基本回归方程中,建立一系列回归方程,根据每个新加的解释变量的标准差和复相关系数来考察其对每个回归系数的影响,一般根据如下标准进行分类判别: 1.如果新引进的解释变量使R2得到提高,而其他参数回归系数在统计上和经济理论上仍然合理,则认为这个新引入的变量对回归模型是有利的,可以作为解释变量予以保留。 2.如果新引进的解释变量对R2改进不明显,对其他回归系数也没有多大影响,则不必保留在回归模型中。 3.如果新引进的解释变量不仅改变了R2,而且对其他回归系数的数值或符号具有明显影响,则认为该解释变量为不利变量,引进后会使回归模型出现多重共线性问题。不利变量未必是多余的,如果它可能对被解释变量是不可缺少的,则不能简单舍弃,而是应研究改善模型的形式,寻找更符合实际的模型,重新进行估计。如果通过检验证明回归模型存在明显线性相关的两个解释变量中的其中一个可以被另一个很好地解释,则可略去其中对被解释变量影响较小的那个变量,模型中保留影响较大的那个变量。 下边我们通过实例来说明逐步回归分析方法在解决多重共线性问题上的具体应用过程。 具体实例 例1设某地10年间有关服装消费、可支配收入、流动资产、服装类物价指数、总物价指数的调查数据如表1,请建立需求函数模型。 表1 服装消费及相关变量调查数据

计量经济学实验五 多重共线性的检验与修正 完成版

习题 CPI 。 资料来源:《中国统计年鉴》,中国统计出版社2000年、2004年。 请考虑下列模型:i t t t u CPI GDP Y ++=ln ln ln 321βββ+ (1)利用表中数据估计此模型的参数。 解:

ln 3.6489 1.796ln 1.2075ln t t t Y GDP CPI =--+ t= (-11.32) (9.93) (-3.415) 20.988770.6.0.1124R F S E === (2)你认为数据中有多重共线性吗? 多重共线性的检验 1)综合统计检验法 若 在OLS 法下:R 2与F 值较大,但t 检验值较小,则可能存在多重共线性。 2)简单相关系数检验 在Eviews 软件命令窗口中键入:COR GDP CPI 或在包含所有解释变量的数组窗口中点击View\Correlations ,其结果如图所示。由相关系数矩阵可以看出,解释变量之间的相关系数均为0.93以上,即解释变量之间是高度相关的。 GDP CPI GDP 1.000000 0.941303 CPI 0.941303 1.000000 3)判定系数检验法 当解释变量多余两个且变量之间呈现出较复杂的相关关系时,可以通过建立辅助回归模型来检验多重共线性。在Eviews 软件命令窗口中键入: LS GDP C CPI 得到相应的回归结果,分析方程对应的F 值和T 值,来检验这些变量间是否相关以及相关联程度。 对应的回归结果如下图所示。

上述回归方程的F 检验值非常显著,方程回归系数的T 检验值表明:GDP 与CPI 的T 检验值较大,变量之间相关。 (3)进行以下回归: i t t i t t i t t v CPI C C GDP v CPI B B Y v GDP A A Y 321221121ln ln ln ln ln ln ++=+=+=++ 根据这些回归你能对数据中多重共线性的性质说些什么? 解:进行ls 检验,得到如下的三个结果: ln 3.745 1.187ln t t Y GDP =-+ t= (-9.143) (30.6594) 20.981939.999.0.1434R F S E ===

实验四-多重共线性模型的检验和处理

实验四-多重共线性模型的检验和处理

实验报告 课程名称:计量经济学实验项目:实验四多重共线性模型的 检验和处理 实验类型:综合性□设计性□验证性 专业班别:11本国贸五班 姓名: 学号: 实验课室:厚德楼A207 指导教师:

实验日期:2014/5/20 广东商学院华商学院教务处制 一、实验项目训练方案 小组合作:是□否 小组成员:无 实验目的: 掌握多重共线性模型的检验和处理方法: 实验场地及仪器、设备和材料 实验室:普通配置的计算机,Eviews软件及常用办公软件。 实验训练内容(包括实验原理和操作步骤): 【实验原理】 多重共线性的检验:直观判断法(R2值、t值检验)、简单相关系数检验法、方差扩大因子法(辅助回归检验) 多重共线性的处理:先验信息法、变量变换法、逐步回归法 【实验步骤】 (一)多重共线性的检验 1.直观判断法(R2值、t值检验) 根据广东数据(见附件1),先分别建立以下模型: 【模型1】财政收入CS对第一产业产值GDP1、第二产业产值GDP2和第三产业产值GDP3的多元线性回归模型;

(请对得到的图表进行处理,以上在一页内) 【模型2】固定资产投资TZG对固定资产折旧ZJ、营业盈余YY和财政支出CZ的多元线性回归模型。 观察模型结果,初步判断模型自变量之间是否存在多重共线性问题。 【模型1】从上图可以得到,估计方程的判定系数R 2 很高,但三个参数t检验值两个不显著,有一个较显著,其 中一个参数估计值还是负的,不符合经济理论。所以,出现了严重的多重共线性。 【模型2】1】从上图可以得到,估计方程的判定系数R 2 很高,方程显著性F检验也显著,但只有两个参数显著性 t检验比较显著,这与很高的判定系数不相称,出现了严重的多重共线性。 2.简单相关系数检验法 分别计算【模型1】和【模型2】的自变量的简单相关系数。【模型1】 【模型2】

实验五__多重共线性检验参考案例

实验五 多重共线性检验 实验时间: 姓名: 学号: 成绩: 【实验目的】 1、掌握多元线性回归模型的估计、检验和预测; 2、掌握多重共线性问题的检验方法 3、掌握多重共线性问题的修正方法 【实验内容】 1、数据的读取和编辑; 2、多元回归模型的估计、检验、预测; 3、多重共线性问题的检验 4、多重共线性问题的修正 【实验背景】 为了评价报账最低工资(负收入税)政策的可行性,兰德公司进行了一项研究,以评价劳动供给(平均工作小时数)对小时工资提高的反应,词研究中的数据取自6000户男户主收入低于15000美元的一个国民样本,这些数据分成39个人口组,并放在表1中,由于4个人口组中的某些变量确实,所以只给出了35个组的数据,用于分析的各个变量的定义如下: Y 表示该年度平均工作小时数;X1表示平均小时工资(美元);X2表示配偶平均收入(美元);X3表示其他家庭成员的平均收入(美元);X4表示年均非劳动收入(美元);X5表示平均家庭资产拥有量;X6表示被调查者的平均年龄;X7表示平均赡养人数;X8表示平均受教育年限。μ为随机干扰项,考虑一下回归模型: μβββββββββ+++++++++=87654321876543210X X X X X X X X Y (1) 将该年度平均工作小时数Y 对X 进行回归,并对模型进行简单分析; (2) 计算各变量之间的相关系数矩阵,利用相关系数法分析变量间是否具有 多重共线性; (3) 利用逐步回归方法检验并修正回归模型,最后再对模型进行经济意义检

验、统计检验。 表5 观测组Y X1 X2 X3 X4 X5 X6 X7 X8 1 2157 2.905 1121 291 380 7250 38.5 2.34 10.5 2 2174 2.97 1128 301 398 7744 39. 3 2.335 10.5 3 2062 2.35 121 4 326 18 5 3068 40.1 2.851 8.9 4 2111 2.511 1203 49 117 1632 22.4 1.159 11.5 5 2134 2.791 1013 594 730 12710 57.7 1.229 8.8 6 2185 3.04 1135 28 7 382 776 38.6 2.602 10.7 7 2210 3.222 1100 295 474 9338 39 2.187 112 8 2105 2.495 1180 310 255 4730 39.9 2.616 9.3 9 2267 2.838 1298 252 431 8317 38.9 2.024 11.1 10 2205 2.356 885 264 373 6489 38.8 2.662 9.5 11 2121 2.922 1251 328 312 5907 39.8 2.287 10.3 12 2109 2.499 1207 347 271 5069 39.7 3.193 8.9 13 2108 2.796 1036 300 259 4614 38.2 2.4 9.2 14 2047 2.453 1213 397 139 1987 40.3 2.545 9.1 15 2174 3.582 1141 414 498 10239 40 2.064 11.7 16 2067 2.909 1805 290 239 4439 39.1 2.301 10.5 17 2159 2.511 1075 289 308 5621 39.3 2.486 9.5 18 2257 2.516 1093 176 392 7293 37.9 2.042 10.1 19 1985 1.423 553 381 146 1866 40.6 3.833 6.6 20 2184 3.636 1091 291 560 11240 39.1 2.328 11.6 21 2084 2.983 1327 331 296 5653 39.8 2.208 10.2 22 2051 2.573 1197 279 172 2806 40 2.362 9.1 23 2127 3.263 1226 314 408 8042 39.5 2.259 10.8 24 2102 3.234 1188 414 352 7557 39.8 2.019 10.7 25 2098 2.28 973 364 272 4400 40.6 2.661 8.4 26 2042 2.304 1085 328 140 1739 41.8 2.444 8.2 27 2181 2.912 1072 304 383 9340 39 2.337 10.2 28 2186 3.015 1122 30 352 7292 37.2 2.046 10.9 29 2188 3.01 990 366 374 7325 38.4 2.847 10.6 30 2077 1.901 350 209 95 1370 37.4 4.158 8.2 31 2196 3.009 947 294 342 6888 37.5 3.047 10.6 32 2093 1.899 342 311 120 1425 37.5 4.512 8.1 33 2173 2.959 1116 296 387 7625 39.2 2.342 10.5 34 2179 2.959 1116 296 387 7625 39.2 2.342 10.5 35 2200 2.98 1126 204 393 7885 39.2 2.341 10.6 【实验过程】 一、利用Eviews软件建立年度平均工作小时数y的回归模型。 (一)首先创建Workfile(命令窗口输入Create U,再输入35个样本观测值),

卡方拟合优度检验正态分布

某医生测得某校120名高三男生血红蛋白值(g/gL),其均数是X=14.5,标准差S=1.2,各组段值及频数表如下所示,拟推断该资料是否服从正态分布。 X(1)人数f(2) 11.0~ 1 11.5~ 1 12.0~ 3 12.5~ 8 13.0~ 12 13.5~ 15 14.0~ 19 14.5~ 23 15.0~ 12 15.5~ 12 16.0~ 9 16.5~ 3 17.0~ 2 合计120

X (1) 人数f (2) Z 值 Φ(Z i ) Φ(Z i ) T 2 ()A T T - 11.0~ 1 -2.92 0.0018 0.0062 0.528 - 11.5~ 1 -2.5 0.0062 0.0018 1.512 - 12.0~ 3 -2.08 0.0188 0.0475 3.444 0.043 12.5~ 8 -1.67 0.0475 0.1057 6.984 0.148 13.0~ 12 -1.25 0.1057 0.2033 11.712 0.007 13.5~ 15 -0.83 0.2033 0.3372 16.068 0.071 14.0~ 19 -0.42 0.3372 0.5 19.536 0.015 14.5~ 23 0.00 0.5 0.6628 19.536 0.614 15.0~ 12 0.42 0.6628 0.7967 16.068 1.030 15.5~ 12 0.83 0.7967 0.8944 11.724 0.006 16.0~ 9 1.25 0.8944 0.9525 6.972 0.590 16.5~ 3 1.67 0.9525 0.9812 3.444 0.000 17.0~ 2 2.08 0.9812 0.9938 1.512 - 合计 120 — — 2.524 2 2 () 2.524A T T c -= =? n =10-1-2=7

实验四-多重共线性模型的检验和处理

实验报告 课程名称:计量经济学 实验项目:实验四多重共线性模型的 检验和处理 实验类型:综合性□设计性□验证性 专业班别:11本国贸五班 姓名: 学号: 实验课室:厚德楼A207 指导教师: 实验日期:2014/5/20 广东商学院华商学院教务处制

一、实验项目训练方案 小组合作:是□否 小组成员:无 实验目的: 掌握多重共线性模型的检验和处理方法: 实验场地及仪器、设备和材料 实验室:普通配置的计算机,Eviews软件及常用办公软件。 实验训练内容(包括实验原理和操作步骤): 【实验原理】 多重共线性的检验:直观判断法(R2值、t值检验)、简单相关系数检验法、方差扩大因子法(辅助回归检验) 多重共线性的处理:先验信息法、变量变换法、逐步回归法 【实验步骤】 (一)多重共线性的检验 1.直观判断法(R2值、t值检验) 根据广东数据(见附件1),先分别建立以下模型: 【模型1】财政收入CS对第一产业产值GDP1、第二产业产值GDP2和第三产业产值GDP3的多元线性回归模型; (请对得到的图表进行处理,以上在一页内)

【模型2】固定资产投资TZG对固定资产折旧ZJ、营业盈余YY和财政支出CZ的多元线性回归模型。 观察模型结果,初步判断模型自变量之间是否存在多重共线性问题。 【模型1】从上图可以得到,估计方程的判定系数R 2 很高,但三个参数t检验值两个不显著,有一个较显著,其中 一个参数估计值还是负的,不符合经济理论。所以,出现了严重的多重共线性。 【模型2】1】从上图可以得到,估计方程的判定系数R 2 很高,方程显著性F检验也显著,但只有两个参数显著性 t检验比较显著,这与很高的判定系数不相称,出现了严重的多重共线性。 2.简单相关系数检验法 分别计算【模型1】和【模型2】的自变量的简单相关系数。 【模型1】 【模型2】 (请对得到的图表进行处理,以上在一页内) 根据计算的简单相关系数,判断模型是否存在多重共线性。 【模型1】可看出三个解释变量GDP1 、GDP2和GDP3之间高度相关,存在严重的多重共线性。 【模型2】可以看出三个解释变量ZJ 、YY和CZ之间也高度相关,特别是ZJ和CZ之间高度相关,必然也存在严重的多重共线性。

相关文档
最新文档