《计量经济学》第四章精选题及答案

合集下载

【VIP专享】计量经济学第四章练习题及参考解答

【VIP专享】计量经济学第四章练习题及参考解答

(2) 3.060 1.657ln() 1.057ln()
(0.337) (0.092) (0.215)0.992 0.991 F 1275.093
GDP CPI R =-+-===进口居民消费价格指数的回归系数的符号不能进行合理的经济意义解释可能数据中有多重共线性。

计算相关系数:
22ln Y 4.09071.2186ln () t= (-10.6458) (34.6222)
0.9828 0.9820 1198.698
GDP R R F =-+===ln Y 5.4424 2.6637ln (PI)C =-+
从修正的可决系数和F统计量可以看出,全部变量对数线性多元回归整体对样本拟合很好,著。

可是其中的lnX3、lnX4、lnX6对lnY影响不显著,而且lnX2、lnX5
可以看出lnx1与lnx2、lnx3、lnx4、lnx5、lnx6之间高度相关,许多相关系数高于作为解释变量,很可能会出现严重多重共线性问题。

在本章开始的“引子”提出的“农业的发展反而会减少财政收入吗?
表4.13 1978-2007
财政收入(亿元)CS农业增加值(亿元)NZ工业增加值(亿元)GZ建筑业增加值
1132.31027.51607
1146.41270.21769.7
1159.91371.61996.5
1175.81559.52048.4
(1)根据样本数据得到各解释变量的样本相关系数矩阵如下:样本相关系数矩阵
解释变量之间相关系数较高,特别是农业增加值、工业增加值、建筑业增加值、最终消费之间,相关系数都在这显然与第三章对模型的无多重共线性假定不符合。

计量经济学第四章习题详解word精品

计量经济学第四章习题详解word精品

第四章习题4.1没有进行t 检验,并且调整的可决系数也没有写出来,也就是没有考虑自由度的影响,会使结果存在一研究的目的和要求我们知道,商品进口额与很多因素有关,了解其变化对进出口产品有很大帮助。

为了探究和预测商品 进口额的变化,需要定量地分析影响商品进口额变化的主要因素。

二、模型的设定及其估计经分析,商品进口额可能与国内生产总值、居民消费价格指数有关。

为此,考虑国内生产总值 居民消费价格指数 CPI 为主要因素。

各影响变量与商品进口额呈正相关。

为此,设定如下形式的计量经济 模型:4.3199511048.160793.7302.8+ In+ InCP1996 11557.4 71176.6 327.9 1997 11806.5 78973.0 337.1 1998 11626.1 84402.3 334.4 1999 13736.4 89677.1 329.7 2000 18638.8 99214.6 331.0 2001 20159.2 109655.2 333.3 2002 24430.3 120332.7 330.6 2003 34195.6 135822.8 334.6 2004 46435.8 159878.3 I 347.7 2005 54273.7 183084.8 353.9 2006 63376.9 211923.5 359.2 2007 73284.6 249529.9 376.5 2008 79526.5 314045.4 398.7 2009 68618.4 340902.8 395.9 201094699.3 401512.8 408.9 2011113161.4472881.6431.0GDP 、式中, 为第 年中国商品进口额(亿元);In GDP 为第 年国内生产总值(亿元);In CPI 为居民消费价格 指数(以1985年为100)。

各解释变量前的回归系数预期都大于零。

第四章计量经济学答案

第四章计量经济学答案

第四章一元线性回归第一部分学习目的和要求本章主要介绍一元线性回归模型、回归系数的确定和回归方程的有效性检验方法。

回归方程的有效性检验方法包括方差分析法、t检验方法和相关性系数检验方法。

本章还介绍了如何应用线性模型来建立预测和控制。

需要掌握和理解以下问题:1 一元线性回归模型2 最小二乘方法3 一元线性回归的假设条件4 方差分析方法5 t检验方法6 相关系数检验方法7 参数的区间估计8 应用线性回归方程控制与预测9 线性回归方程的经济解释第二部分练习题一、术语解释1 解释变量2 被解释变量3 线性回归模型4 最小二乘法5 方差分析6 参数估计7 控制8 预测二、填空ξ,目的在于使模型更1 在经济计量模型中引入反映()因素影响的随机扰动项t符合()活动。

2 在经济计量模型中引入随机扰动项的理由可以归纳为如下几条:(1)因为人的行为的()、社会环境与自然环境的()决定了经济变量本身的();(2)建立模型时其他被省略的经济因素的影响都归入了()中;(3)在模型估计时,()与归并误差也归入随机扰动项中;(4)由于我们认识的不足,错误的设定了()与()之间的数学形式,例如将非线性的函数形式设定为线性的函数形式,由此产生的误差也包含在随机扰动项中了。

3 ()是因变量离差平方和,它度量因变量的总变动。

就因变量总变动的变异来源看,它由两部分因素所组成。

一个是自变量,另一个是除自变量以外的其他因素。

()是拟合值的离散程度的度量。

它是由自变量的变化引起的因变量的变化,或称自变量对因变量变化的贡献。

()是度量实际值与拟合值之间的差异,它是由自变量以外的其他因素所致,它又叫残差或剩余。

4 回归方程中的回归系数是自变量对因变量的()。

某自变量回归系数β的意义,指的是该自变量变化一个单位引起因变量平均变化( )个单位。

5 模型线性的含义,就变量而言,指的是回归模型中变量的( );就参数而言,指的是回归模型中的参数的( );通常线性回归模型的线性含义是就( )而言的。

(完整word版)计量经济学第四章习题详解

(完整word版)计量经济学第四章习题详解

第四章习题4.1 没有进行t检验,并且调整的可决系数也没有写出来,也就是没有考虑自由度的影响,会使结果存在误差.4.3200224430.3120332。

7 330.6200334195。

6135822.8 334。

6200446435.8159878.3 l347.7200554273.7183084.8 353.9200663376.9211923。

5 359。

2200773284。

6249529。

9 376.5200879526.5314045.4 398.7200968618。

4340902。

8 395。

9201094699.3401512.8 408。

92011113161.4472881.6 431.0一研究的目的和要求我们知道,商品进口额与很多因素有关,了解其变化对进出口产品有很大帮助。

为了探究和预测商品进口额的变化,需要定量地分析影响商品进口额变化的主要因素。

二、模型的设定及其估计经分析,商品进口额可能与国内生产总值、居民消费价格指数有关。

为此,考虑国内生产总值GDP、居民消费价格指数CPI为主要因素。

各影响变量与商品进口额呈正相关。

为此,设定如下形式的计量经济模型:=+ln+lnCP式中,亿元);lnGDP为国内生产总值(亿元);lnCPI为居民消费价格指数(以1985年为100)。

各解释变量前的回归系数预期都大于零。

为估计模型,根据上表的数据,利用EViews软件,生成Y、lnGDP、lnCPI等数据,采用OLS方法估计模型参数,得到的回归结果如下图所示:模型方程为:lnY=-3。

111486+1。

338533lnGDP-0.421791lnCPI(0。

463010)(0。

088610)(0。

233295)t= (—6。

720126) (15。

10582)(—1。

807975)=0.988051 =0.987055 F=992。

2582该模型=0.988051,=0。

987055,可决系数很高,F检验值为992.2582,明显显著。

《计量经济学》第四章精选题及答案

《计量经济学》第四章精选题及答案

《计量经济学》第四章精选题及答案第四章:多重共线性二、简答题1、导致多重共线性的原因有哪些?2、多重共线性为什么会使得模型的预测功能失效?3、如何利用辅回归模型来检验多重共线性?4、判断以下说法正确、错误,还是不确定?并简要陈述你的理由。

(1)尽管存在完全的多重共线性,OLS估计量还是最优线性无偏估计量(BLUE)。

(2)在高度多重共线性的情况下,要评价一个或者多个偏回归系数的个别显著性是不可能的。

(3)如果某一辅回归显示出较高的2R值,则必然会i存在高度的多重共线性。

(4)变量之间的相关系数较高是存在多重共线性的充分必要条件。

(5)如果回归的目的仅仅是为了预测,则变量之间存在多重共线性是无害的。

5、考虑下面的一组数据:Y -10 -8 -6 -4 -2 0 2 4 6 8 10X 1 2 3 4 5 6 7 8 9 10 11 2X 1 3 5 7 9 11 13 15 17 19 21 3如果我们用模型:12233i i i Y X X βββ=++来对以上数据进行拟合回归。

(1) 我们能得到这3个估计量吗?并说明理由。

(2) 如果不能,那么我们能否估计得到这些参数的线性组合?可以的话,写出必要的计算过程。

6、考虑以下模型:231234i i i i i Y X X X ββββμ=++++ 由于2X 和3X 是X 的函数,那么它们之间存在多重共线性。

这种说法对吗?为什么?7、在涉及时间序列数据的回归分析中,如果回归模型不仅含有解释变量的当前值,同时还含有它们的滞后值,我们把这类模型称为分布滞后模型(distributed-lag model )。

我们考虑以下模型:12313233i t t t t tY X X X X βββββμ---=+++++ 其中Y ——消费,X ——收入,t ——时间。

该模型表示当期的消费是其现期的收入及其滞后三期的收入的线性函数。

(1) 在这一类模型中是否会存在多重共线性?为什么?(2) 如果存在多重共线性的话,应该如何解决这个问题?8、设想在模型12233i i i i Y X X βββμ=+++ 中,2X 和3X 之间的相关系数23r 为零。

《计量经济学》习题(第四章)

《计量经济学》习题(第四章)

第四章 习 题一、单选题1、如果回归模型违背了同方差假定,最小二乘估计量____A .无偏的,非有效的 B.有偏的,非有效的C .无偏的,有效的 D.有偏的,有效的2、Goldfeld-Quandt 方法用于检验____A .异方差性 B.自相关性C .随机解释变量 D.多重共线性3、DW 检验方法用于检验____A .异方差性 B.自相关性C .随机解释变量 D.多重共线性4、在异方差性情况下,常用的估计方法是____A .一阶差分法 B.广义差分法C .工具变量法 D.加权最小二乘法5、在以下选项中,正确表达了序列自相关的是____j i u x Cov D j i x x Cov C ji u u Cov B ji u u Cov A j i j i j i j i ≠≠≠≠≠=≠≠,0),(.,0),(.,0),(.,0),(.6、如果回归模型违背了无自相关假定,最小二乘估计量____A .无偏的,非有效的 B.有偏的,非有效的C .无偏的,有效的 D.有偏的,有效的7、在自相关情况下,常用的估计方法____A .普通最小二乘法 B.广义差分法C .工具变量法 D.加权最小二乘法8、White 检验方法主要用于检验____A .异方差性 B.自相关性C .随机解释变量 D.多重共线性9、Glejser 检验方法主要用于检验____A .异方差性 B.自相关性C .随机解释变量 D.多重共线性10、简单相关系数矩阵方法主要用于检验____A .异方差性 B.自相关性C .随机解释变量 D.多重共线性11、所谓异方差是指____2222)(.)(.)(.)(.σσσσ==≠≠i i i i x Var D u Var C x Var B u Var A12、所谓不完全多重共线性是指存在不全为零的数k λλλ,,,21 ,有____1112211221221122.0.0..k k k k k x x x k k k k A x x x v B x x x C x x x v e D x x x v e v λλλλλλλλλλλλ++++=+++=∑⎰++++=++++=式中是随机误差项13、设21,x x 为解释变量,则完全多重共线性是____0.(021.0.021.22121121=+=++==+x x e x D v v x x C e x B x x A 为随机误差项) 14、广义差分法是对____用最小二乘法估计其参数11211211121121)()1(....-------+-+-=-++=++=++=t t t t t t t t t t t t tt t u u x x y y D u x y C u x y B u x y A ρρβρβρρρβρβρββββ15、在DW 检验中要求有假定条件,在下列条件中不正确的是____A .解释变量为非随机的 B.随机误差项为一阶自回归形式C .线性回归模型中不应含有滞后内生变量为解释变量D.线性回归模型为一元回归形式16、在下例引起序列自相关的原因中,不正确的是____A.经济变量具有惯性作用B.经济行为的滞后性C.设定偏误D.解释变量之间的共线性17、在DW 检验中,当d 统计量为2时,表明____A.存在完全的正自相关B.存在完全的负自相关C.不存在自相关D.不能判定18、在DW 检验中,当d 统计量为4时,表明____A.存在完全的正自相关B.存在完全的负自相关C.不存在自相关D.不能判定19、在DW 检验中,当d 统计量为0时,表明____A.存在完全的正自相关B.存在完全的负自相关C.不存在自相关D.不能判定20、在DW 检验中,存在不能判定的区域是____A. 0﹤d ﹤l d ,4-l d ﹤d ﹤4B. u d ﹤d ﹤4-u dC. l d ﹤d ﹤u d ,4-u d ﹤d ﹤4-l dD. 上述都不对21、在修正序列自相关的方法中,能修正高阶自相关的方法是____A. 利用DW 统计量值求出ρˆ B. Cochrane-Orcutt 法 C. Durbin 两步法 D. 移动平均法22、在下列多重共线性产生的原因中,不正确的是____A.经济本变量大多存在共同变化趋势B.模型中大量采用滞后变量C.由于认识上的局限使得选择变量不当D.解释变量与随机误差项相关23、在DW 检验中,存在正自相关的区域是____A. 4-l d ﹤d ﹤4B. 0﹤d ﹤l dC. u d ﹤d ﹤4-u dD. l d ﹤d ﹤u d ,4-u d ﹤d ﹤4-l d24、逐步回归法既检验又修正了____A .异方差性 B.自相关性 C .随机解释变量 D.多重共线性25、设)()(,2221i i i i i i x f u Var u x y σσββ==++=,则对原模型变换的正确形式为____ )()()()(.)()()()(.)()()()(..212222122121i i i i i i i i i i i i i i i i i i i i i i i i x f u x f x x f x f y D x f u x f x x f x f y C x f u x f x x f x f y B u x y A ++=++=++=++=ββββββββ26、在修正序列自相关的方法中,不正确的是____A.广义差分法B.普通最小二乘法C.一阶差分法D. Durbin 两步法27、在检验异方差的方法中,不正确的是____A. Goldfeld-Quandt 方法B. spearman 检验法C. White 检验法D. DW 检验法28、在DW 检验中,存在零自相关的区域是____A. 4-l d ﹤d ﹤4B. 0﹤d ﹤l dC. u d ﹤d ﹤4-u dD. l d ﹤d ﹤u d ,4-u d ﹤d ﹤4-l d29.如果模型中的解释变量存在完全的多重共线性,参数的最小二乘估计量是( )A .无偏的 B. 有偏的 C. 不确定 D. 确定的30. 已知模型的形式为u x y 21+β+β=,在用实际数据对模型的参数进行估计的时候,测得DW 统计量为0.6453,则广义差分变量是( )A. 1t t ,1t t x 6453.0x y 6453.0y ----B. 1t t 1t t x 6774.0x ,y 6774.0y ----C. 1t t 1t t x x ,y y ----D. 1t t 1t t x 05.0x ,y 05.0y ----31. 在具体运用加权最小二乘法时,如果变换的结果是x u x x x 1xy 21+β+β=,则Var(u)是下列形式中的哪一种?( )A. 2σxB. 2σ2x B. 2σx D. 2σLog(x)32. 在线性回归模型中,若解释变量1x 和2x 的观测值成比例,即有i 2i 1kx x =,其中k 为非零常数,则表明模型中存在( )A. 异方差B. 多重共线性C. 序列自相关D. 设定误差33. 已知DW 统计量的值接近于2,则样本回归模型残差的一阶自相关系数ρˆ近似等于( ) A. 0 B. –1 C. 1 D. 4二、多项选择1、能够检验多重共线性的方法有____A.简单相关系数法B. DW 检验法C. 判定系数检验法D. 方差膨胀因子检验E.逐步回归法3、能够修正多重共线性的方法有____A.增加样本容量B.岭回归法C.剔除多余变量D.逐步回归法E.差分模型3、如果模型中存在异方差现象,则会引起如下后果____A. 参数估计值有偏B. 参数估计值的方差不能正确确定C. 变量的显著性检验失效D. 预测精度降低E. 参数估计值仍是无偏的4、能够检验异方差的方法是____A. gleiser检验法B. White检验法C. 图形法D. spearman检验法E. DW检验法F. Goldfeld-Quandt检验法5、如果模型中存在序列自相关现象,则会引起如下后果____A. 参数估计值有偏B. 参数估计值的方差不能正确确定C. 变量的显著性检验失效D. 预测精度降低E. 参数估计值仍是无偏的6、检验序列自相关的方法是____A. gleiser检验法B. White检验法C. 图形法D. DW检验法E. Goldfeld-Quandt检验法7、能够修正序列自相关的方法有____A. 加权最小二乘法B. Durbin两步法C.广义最小二乘法D. 一阶差分法E.广义差分法8、Goldfeld-Quandt检验法的应用条件是____A. 将观测值按解释变量的大小顺序排列B. 样本容量尽可能大C. 随机误差项服从正态分布D. 将排列在中间的约1/4的观测值删除掉9、在DW检验中,存在不能判定的区域是____A. 0﹤d﹤l dB. u d﹤d﹤4-u dC. l d﹤d﹤u dD. 4-u d﹤d﹤4-l dE. 4-l d﹤d﹤4。

计量经济学课后答案第四、五章(内容参考)

计量经济学课后答案第四、五章(内容参考)

计量经济学课后答案第四、五章(内容参考)第四章随机解释变量问题1. 随机解释变量的来源有哪些?答:随机解释变量的来源有:经济变量的不可控,使得解释变量观测值具有随机性;由于随机干扰项中包括了模型略去的解释变量,而略去的解释变量与模型中的解释变量往往是相关的;模型中含有被解释变量的滞后项,而被解释变量本身就是随机的。

2.随机解释变量有几种情形? 分情形说明随机解释变量对最小二乘估计的影响与后果?答:随机解释变量有三种情形,不同情形下最小二乘估计的影响和后果也不同。

(1)解释变量是随机的,但与随机干扰项不相关;这时采用OLS估计得到的参数估计量仍为无偏估计量;(2)解释变量与随机干扰项同期无关、不同期相关;这时OLS估计得到的参数估计量是有偏但一致的估计量;(3)解释变量与随机干扰项同期相关;这时OLS估计得到的参数估计量是有偏且非一致的估计量。

3. 选择作为工具变量的变量必须满足那些条件?答:选择作为工具变量的变量需满足以下三个条件:(1)与所替代的随机解释变量高度相关;(2)与随机干扰项不相关;(3)与模型中其他解释变量不相关,以避免出现多重共线性。

4.对模型Y t =β+β1X1t+β2X2t+β3Yt-1+μt假设Yt-1与μt相关。

为了消除该相关性,采用工具变量法:先求Y t关于X1t与 X2t回归,得到Yt,再做如下回归:Y t =β+β1X1t+β2X2t+β3Y t?1-+μt试问:这一方法能否消除原模型中Yt的相关性? 为什么?解答:能消除。

在基本假设下,X1t,X2t与μt应是不相关的,由此知,由X1t 与X2t估计出的Yt应与μt不相关。

5.对于一元回归模型Y t =β+β1Xt*+μt假设解释变量Xt *的实测值Xt与之有偏误:Xt= Xt*+et,其中et是具有零均值、无序列相关,且与Xt不相关的随机变量。

试问:(1) 能否将X t= X t*+e t代入原模型,使之变换成Y t=β0+β1X t+νt后进行估计? 其中,νt为变换后模型的随机干扰项。

计量经济学第4章课后答案

计量经济学第4章课后答案

17CHAPTER 4SOLUTIONS TO PROBLEMS4.2 (i) and (iii) generally cause the t statistics not to have a t distribution under H 0.Homoskedasticity is one of the CLM assumptions. An important omitted variable violates Assumption MLR.3. The CLM assumptions contain no mention of the sample correlations among independent variables, except to rule out the case where the correlation is one.4.3 (i) While the standard error on hrsemp has not changed, the magnitude of the coefficient has increased by half. The t statistic on hrsemp has gone from about –1.47 to –2.21, so now the coefficient is statistically less than zero at the 5% level. (From Table G.2 the 5% critical value with 40 df is –1.684. The 1% critical value is –2.423, so the p -value is between .01 and .05.)(ii) If we add and subtract 2βlog(employ ) from the right-hand-side and collect terms, we havelog(scrap ) = 0β + 1βhrsemp + [2βlog(sales) – 2βlog(employ )] + [2βlog(employ ) + 3βlog(employ )] + u = 0β + 1βhrsemp + 2βlog(sales /employ ) + (2β + 3β)log(employ ) + u ,where the second equality follows from the fact that log(sales /employ ) = log(sales ) – log(employ ). Defining 3θ ≡ 2β + 3β gives the result.(iii) No. We are interested in the coefficient on log(employ ), which has a t statistic of .2, which is very small. Therefore, we conclude that the size of the firm, as measured by employees, does not matter, once we control for training and sales per employee (in a logarithmic functional form).(iv) The null hypothesis in the model from part (ii) is H 0:2β = –1. The t statistic is [–.951 – (–1)]/.37 = (1 – .951)/.37 ≈ .132; this is very small, and we fail to reject whether we specify a one- or two-sided alternative.4.4 (i) In columns (2) and (3), the coefficient on profmarg is actually negative, although its t statistic is only about –1. It appears that, once firm sales and market value have been controlled for, profit margin has no effect on CEO salary.(ii) We use column (3), which controls for the most factors affecting salary. The t statistic on log(mktval ) is about 2.05, which is just significant at the 5% level against a two-sided alternative.18(We can use the standard normal critical value, 1.96.) So log(mktval ) is statistically significant. Because the coefficient is an elasticity, a ceteris paribus 10% increase in market value is predicted to increase salary by 1%. This is not a huge effect, but it is not negligible, either.(iii) These variables are individually significant at low significance levels, with t ceoten ≈ 3.11 and t comten ≈ –2.79. Other factors fixed, another year as CEO with the company increases salary by about 1.71%. On the other hand, another year with the company, but not as CEO, lowers salary by about .92%. This second finding at first seems surprising, but could be related to the “superstar” effect: firms that hire CEOs from outside the company often go after a small pool of highly regarded candidates, and salaries of these people are bid up. More non-CEO years with a company makes it less likely the person was hired as an outside superstar.4.7 (i) .412 ± 1.96(.094), or about .228 to .596.(ii) No, because the value .4 is well inside the 95% CI.(iii) Yes, because 1 is well outside the 95% CI.4.8 (i) With df = 706 – 4 = 702, we use the standard normal critical value (df = ∞ in Table G.2), which is 1.96 for a two-tailed test at the 5% level. Now t educ = −11.13/5.88 ≈ −1.89, so |t educ | = 1.89 < 1.96, and we fail to reject H 0: educ β = 0 at the 5% level. Also, t age ≈ 1.52, so age is also statistically insignificant at the 5% level.(ii) We need to compute the R -squared form of the F statistic for joint significance. But F = [(.113 − .103)/(1 − .113)](702/2) ≈ 3.96. The 5% critical value in the F 2,702 distribution can be obtained from Table G.3b with denominator df = ∞: cv = 3.00. Therefore, educ and age are jointly significant at the 5% level (3.96 > 3.00). In fact, the p -value is about .019, and so educ and age are jointly significant at the 2% level.(iii) Not really. These variables are jointly significant, but including them only changes the coefficient on totwrk from –.151 to –.148.(iv) The standard t and F statistics that we used assume homoskedasticity, in addition to the other CLM assumptions. If there is heteroskedasticity in the equation, the tests are no longer valid.4.11 (i) Holding profmarg fixed, n rdintensΔ = .321 Δlog(sales ) = (.321/100)[100log()sales ⋅Δ] ≈ .00321(%Δsales ). Therefore, if %Δsales = 10, n rdintens Δ ≈ .032, or only about 3/100 of a percentage point. For such a large percentage increase in sales,this seems like a practically small effect.(ii) H 0:1β = 0 versus H 1:1β > 0, where 1β is the population slope on log(sales ). The t statistic is .321/.216 ≈ 1.486. The 5% critical value for a one-tailed test, with df = 32 – 3 = 29, is obtained from Table G.2 as 1.699; so we cannot reject H 0 at the 5% level. But the 10% criticalvalue is 1.311; since the t statistic is above this value, we reject H0 in favor of H1 at the 10% level.(iii) Not really. Its t statistic is only 1.087, which is well below even the 10% critical value for a one-tailed test.1920SOLUTIONS TO COMPUTER EXERCISESC4.1 (i) Holding other factors fixed,111log()(/100)[100log()](/100)(%),voteA expendA expendA expendA βββΔ=Δ=⋅Δ≈Δwhere we use the fact that 100log()expendA ⋅Δ ≈ %expendA Δ. So 1β/100 is the (ceteris paribus) percentage point change in voteA when expendA increases by one percent.(ii) The null hypothesis is H 0: 2β = –1β, which means a z% increase in expenditure by A and a z% increase in expenditure by B leaves voteA unchanged. We can equivalently write H 0: 1β + 2β = 0.(iii) The estimated equation (with standard errors in parentheses below estimates) isn voteA = 45.08 + 6.083 log(expendA ) – 6.615 log(expendB ) + .152 prtystrA(3.93) (0.382) (0.379) (.062) n = 173, R 2 = .793.The coefficient on log(expendA ) is very significant (t statistic ≈ 15.92), as is the coefficient on log(expendB ) (t statistic ≈ –17.45). The estimates imply that a 10% ceteris paribus increase in spending by candidate A increases the predicted share of the vote going to A by about .61percentage points. [Recall that, holding other factors fixed, n voteAΔ≈(6.083/100)%ΔexpendA ).] Similarly, a 10% ceteris paribus increase in spending by B reduces n voteAby about .66 percentage points. These effects certainly cannot be ignored.While the coefficients on log(expendA ) and log(expendB ) are of similar magnitudes (andopposite in sign, as we expect), we do not have the standard error of 1ˆβ + 2ˆβ, which is what we would need to test the hypothesis from part (ii).(iv) Write 1θ = 1β +2β, or 1β = 1θ– 2β. Plugging this into the original equation, and rearranging, givesn voteA = 0β + 1θlog(expendA ) + 2β[log(expendB ) – log(expendA )] +3βprtystrA + u ,When we estimate this equation we obtain 1θ≈ –.532 and se( 1θ)≈ .533. The t statistic for the hypothesis in part (ii) is –.532/.533 ≈ –1. Therefore, we fail to reject H 0: 2β = –1β.21C4.3 (i) The estimated model isn log()price = 11.67 + .000379 sqrft + .0289 bdrms (0.10) (.000043) (.0296)n = 88, R 2 = .588.Therefore, 1ˆθ= 150(.000379) + .0289 = .0858, which means that an additional 150 square foot bedroom increases the predicted price by about 8.6%.(ii) 2β= 1θ – 1501β, and solog(price ) = 0β+ 1βsqrft + (1θ – 1501β)bdrms + u= 0β+ 1β(sqrft – 150 bdrms ) + 1θbdrms + u .(iii) From part (ii), we run the regressionlog(price ) on (sqrft – 150 bdrms ), bdrms ,and obtain the standard error on bdrms . We already know that 1ˆθ= .0858; now we also getse(1ˆθ) = .0268. The 95% confidence interval reported by my software package is .0326 to .1390(or about 3.3% to 13.9%).C4.5 (i) If we drop rbisyr the estimated equation becomesn log()salary = 11.02 + .0677 years + .0158 gamesyr (0.27) (.0121) (.0016)+ .0014 bavg + .0359 hrunsyr (.0011) (.0072)n = 353, R 2= .625.Now hrunsyr is very statistically significant (t statistic ≈ 4.99), and its coefficient has increased by about two and one-half times.(ii) The equation with runsyr , fldperc , and sbasesyr added is22n log()salary = 10.41 + .0700 years + .0079 gamesyr(2.00) (.0120) (.0027)+ .00053 bavg + .0232 hrunsyr (.00110) (.0086)+ .0174 runsyr + .0010 fldperc – .0064 sbasesyr (.0051) (.0020) (.0052) n = 353, R 2 = .639.Of the three additional independent variables, only runsyr is statistically significant (t statistic = .0174/.0051 ≈ 3.41). The estimate implies that one more run per year, other factors fixed,increases predicted salary by about 1.74%, a substantial increase. The stolen bases variable even has the “wrong” sign with a t statistic of about –1.23, while fldperc has a t statistic of only .5. Most major league baseball players are pretty good fielders; in fact, the smallest fldperc is 800 (which means .800). With relatively little variation in fldperc , it is perhaps not surprising that its effect is hard to estimate.(iii) From their t statistics, bavg , fldperc , and sbasesyr are individually insignificant. The F statistic for their joint significance (with 3 and 345 df ) is about .69 with p -value ≈ .56. Therefore, these variables are jointly very insignificant.C4.7 (i) The minimum value is 0, the maximum is 99, and the average is about 56.16. (ii) When phsrank is added to (4.26), we get the following:n log() wage = 1.459 − .0093 jc + .0755 totcoll + .0049 exper + .00030 phsrank (0.024) (.0070) (.0026) (.0002) (.00024)n = 6,763, R 2 = .223So phsrank has a t statistic equal to only 1.25; it is not statistically significant. If we increase phsrank by 10, log(wage ) is predicted to increase by (.0003)10 = .003. This implies a .3% increase in wage , which seems a modest increase given a 10 percentage point increase in phsrank . (However, the sample standard deviation of phsrank is about 24.)(iii) Adding phsrank makes the t statistic on jc even smaller in absolute value, about 1.33, but the coefficient magnitude is similar to (4.26). Therefore, the base point remains unchanged: the return to a junior college is estimated to be somewhat smaller, but the difference is not significant and standard significant levels.(iv) The variable id is just a worker identification number, which should be randomly assigned (at least roughly). Therefore, id should not be correlated with any variable in the regression equation. It should be insignificant when added to (4.17) or (4.26). In fact, its t statistic is about .54.23C4.9 (i) The results from the OLS regression, with standard errors in parentheses, aren log() psoda =−1.46 + .073 prpblck + .137 log(income ) + .380 prppov (0.29) (.031) (.027) (.133)n = 401, R 2 = .087The p -value for testing H 0: 10β= against the two-sided alternative is about .018, so that we reject H 0 at the 5% level but not at the 1% level.(ii) The correlation is about −.84, indicating a strong degree of multicollinearity. Yet eachcoefficient is very statistically significant: the t statistic for log()ˆincome β is about 5.1 and that forˆprppovβ is about 2.86 (two-sided p -value = .004).(iii) The OLS regression results when log(hseval ) is added aren log() psoda =−.84 + .098 prpblck − .053 log(income ) (.29) (.029) (.038) + .052 prppov + .121 log(hseval ) (.134) (.018)n = 401, R 2 = .184The coefficient on log(hseval ) is an elasticity: a one percent increase in housing value, holding the other variables fixed, increases the predicted price by about .12 percent. The two-sided p -value is zero to three decimal places.(iv) Adding log(hseval ) makes log(income ) and prppov individually insignificant (at even the 15% significance level against a two-sided alternative for log(income ), and prppov is does not have a t statistic even close to one in absolute value). Nevertheless, they are jointly significant at the 5% level because the outcome of the F 2,396 statistic is about 3.52 with p -value = .030. All of the control variables – log(income ), prppov , and log(hseval ) – are highly correlated, so it is not surprising that some are individually insignificant.(v) Because the regression in (iii) contains the most controls, log(hseval ) is individually significant, and log(income ) and prppov are jointly significant, (iii) seems the most reliable. It holds fixed three measure of income and affluence. Therefore, a reasonable estimate is that if the proportion of blacks increases by .10, psoda is estimated to increase by 1%, other factors held fixed.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第四章:多重共线性二、简答题1、导致多重共线性的原因有哪些?2、多重共线性为什么会使得模型的预测功能失效?3、如何利用辅回归模型来检验多重共线性?4、判断以下说法正确、错误,还是不确定?并简要陈述你的理由。

(1)尽管存在完全的多重共线性,OLS 估计量还是最优线性无偏估计量(BLUE )。

(2)在高度多重共线性的情况下,要评价一个或者多个偏回归系数的个别显著性是不可能的。

(3)如果某一辅回归显示出较高的2i R 值,则必然会存在高度的多重共线性。

(4)变量之间的相关系数较高是存在多重共线性的充分必要条件。

(5)如果回归的目的仅仅是为了预测,则变量之间存在多重共线性是无害的。

12233i i i Y X X βββ=++来对以上数据进行拟合回归。

(1) 我们能得到这3个估计量吗?并说明理由。

(2) 如果不能,那么我们能否估计得到这些参数的线性组合?可以的话,写出必要的计算过程。

6、考虑以下模型:231234i i i i i Y X X X ββββμ=++++由于2X 和3X 是X 的函数,那么它们之间存在多重共线性。

这种说法对吗?为什么? 7、在涉及时间序列数据的回归分析中,如果回归模型不仅含有解释变量的当前值,同时还含有它们的滞后值,我们把这类模型称为分布滞后模型(distributed-lag model )。

我们考虑以下模型:12313233i t t t t t Y X X X X βββββμ---=+++++其中Y ——消费,X ——收入,t ——时间。

该模型表示当期的消费是其现期的收入及其滞后三期的收入的线性函数。

(1) 在这一类模型中是否会存在多重共线性?为什么? (2) 如果存在多重共线性的话,应该如何解决这个问题? 8、设想在模型12233i i i i Y X X βββμ=+++中,2X 和3X 之间的相关系数23r 为零。

如果我们做如下的回归:1221i i i Y X ααμ=++ 1332i i i Y X γγμ=++(1)会不会存在22ˆˆαβ=且33ˆˆγβ=?为什么? (2)1ˆβ会等于1ˆα或1ˆγ或两者的某个线性组合吗? (3)会不会有22ˆˆvar()var()βα=且33ˆˆvar()var()γβ=? 9、通过一些简单的计量软件(比如EViews 、SPSS ),我们可以得到各变量之间的相关矩阵:2323232311 1k k k k r r r r R r r ⎛⎫⎪⎪= ⎪⎪⎪⎝⎭。

怎样可以从相关矩阵看出完全多重共线性、近似多重共线性或者不存在多重共线性?三、计算题1、考虑消费函数123i t t t C Y W βββμ=+++ 1,2,,t n =(1) 作C 对Y 和W 的普通最小二乘回归。

(2) 这一回归方程是否存在着多重共线性?你的判断依据是什么? (3) 分别作C 对Y 和W 的回归,这些回归结果表明了什么? (4) 作W 对Y 的回归。

这一回归结果表明了什么?(5) 如果存在严重的共线性,你是否会删除一个解释变量?为什么?Y ——新车出售量,未经季节调整数量;2X ——新车,消费者价格指数,1967年=100,未经季节调整; 3X ——消费者价格指数,1967年=100,未经季节调整; 4X ——个人可支配收入,10亿美元,未经季节调整; 5X ——利率,百分数,金融公司票据直接使用;6X ——民间就业劳动人数(个人),未经季节调整。

(1) 如果你决定使用表中全部回归元作为解释变量,可能会遇到多重共线性吗?为什么?(2) 如果你这样认为的话,你准备怎样解决这个问题?明确你的假设并说明全部计算。

(3) 制定适当的线性或者对数线性的模型,以估计美国对汽车的需求函数。

第二部分:参考答案一、术语解释1、多重共线性:对于经典线性回归模型(CLRM )n i u X X X Y i ki k i i i ,2,1 22110 =+++++=ββββ如果上式中某两个或多个解释变量之间出现了相关性,则称为存在多重共线性。

依据解释变量之间共线性的程度不同,可以分为完全多重共线性和近似多重共线性。

2、完全多重共线性与近似多重共线性:所谓完全多重共线性,是指线性回归模型中的若干解释变量或全部解释变量之间具有严格的线性关系,也就是说,对于多元线性回归模型,若各解释变量k X X X ,,,21 的之间存在如下的关系式:02211=+++k k X X X λλλ式中k λλλ,,,21 是不全为零的常数,则称这些解释变量之间存在完全多重共线性。

当各解释变量k X X X ,,,21 的之间存在如下的近似的线性关系:02211≈+++k k X X X λλλ则可以说上述解释变量之间存在近似多重共线性。

还可以采用如下的方式,在近似线性关系式中,假设0≠i λ,则可将此近似线性关系表示为:i k k i i i i i v X X X X X ++++++=++--αααα 111111其中,/i l l λλα=i v 为随机误差项。

3、辅回归:在变量之间存在多重共线性的情况下,有一个解释变量能由其它解释变量近似的线性表示出来。

为了找出哪个解释变量和其它变量有这种关系,我们可以将每个i X 对其余变量进行回归,即i k k i i i i i v X X X X X ++++++=++--αααα 111111这种回归叫做辅回归,它是相对于Y 对各个X 的主回归而言的。

二、简答题1、答:经济数据中大量存在多重共线性这一现象,主要原因在于:经济领域很难象其它实验学科那样从控制性试验中获得数据;此外,可能有经济变量结构上的原因,也有数据收集与模型设定方面的原因,具体的,有以下几种:(1)所使用的数据收集方法。

我们只能在一个有限的范围内得到观察值,无法进行重复试验。

(2)模型或从中取样的总体受到约束(经济变量的共同趋势)。

(3)模型设定的偏误。

(4)过度决定的模型。

这种情况尤其容易发生在解释变量的个数大于观测值个数的情形。

由于上述原因,实际应用中,解释变量之间总会存在一定程度的线性相关,因此,问题不是多重线性有无,而是多重共线性的严重程度。

2、答:多元线性回归模型的一个重要应用是经济预测。

对于模型∧∧=βX Y如果给定样本以外的解释变量的观测值0X ,就可以得到被解释变量的预测值∧∧=β00X Y但是,这只是被解释变量的预测值的估计值而不是预测值。

预测值仅以某一个置信水平位于以该估计值为中心的一个区间中。

对于预测的置信区间,我们利用的是构造t 统计量,得到在给定()α-1的置信水平下0Y 的置信区间为()()''1''10102/000102/0X X X X t Y Y X X X X t Y -∧-∧+⨯+<<+⨯-αα显然,当解释变量之间存在多重共线性时, ()1'-X X 非常大,故而0Y 的置信区间也很大,因此,模型的预测功能失效。

3、答:辅回归是相对于Y 对各个X 的主回归而言的。

在变量之间存在多重共线性的情况下,有一个解释变量能由其它解释变量近似的线性表示出来。

为了找出哪个解释变量和其它变量有这种关系,我们可以将每个i X 对其余变量进行回归,即i k k i i i i i v X X X X X ++++++=++--αααα 111111,并计算相应的决定系数,分别记为2i R 。

然后,我们在建立统计量:22(2)(1)(1)i i i R k F R n k -=--+ 它服从自由度为k-2和n-k+1的F 分布。

其中n 为样本大小,k 为包括常数项在内的解释变量个数。

如果计算出的i F 超过了相应自由度的临界值,则认为这个i X 和其余的解释变量存在共线性;如果i F 未超过临界值,则认为这个i X 和其余的解释变量不存在共线性。

这种辅回归模型检验不仅可以检验是否存在多重共线性,而且还可以得到多重共线性的具体形式。

4、答:(1)错。

如果变量之间存在完全的线性关系时,我们甚至无法估计其系数或者标准误。

(2)错。

在高度多重共线性的情况下,仍然可以得到一个或者多个显著的t 值。

(3)错。

OLS 估计量的方差有下式给出:2221ˆvar()1i ii R x σβ=∙-∑ 从此式可以看出,一个很高的2i R 可被一个很低的2ˆσ或者很高的2ix∑抵消掉。

(4)错。

如果一个模型只有两个回归元,两两之间的高度相关系数便表示存在多重共线性。

但是在变量之间存在多重共线性的前提下,可能是几个变量之间的关系。

变量之间的相关系数较高是存在多重共线性的充分非必要条件。

(5)不确定。

如果观测到共线性在后来的样本数据中继续存在,或许无害。

但如果不是这样,或者目的在于做出精确的估计的话,多重共线性便成为问题。

如果仅仅要是预测的话,预测有效的前提条件是模型结构的稳定。

5、答:(1)不能。

通过对2X 和3X 的观察,我们可以知道它们存在以下的关系:3221i i X X =-,所以可知变量2X 和3X 是完全线性相关的。

(2)把方程写成1223213232122(21)()(2)i i i ii ii iY X X X X βββμββββμααμ=++-+=-+++=++其中113223,2αββαββ=-=+。

因此,我们可以唯一的估计出1α和2α,但无法估计出原始的β,因为两个方程无法解出三个未知数。

6、答:这种说法不正确。

因为2x 和3x 都是x 的非线性函数,把它们包括在回归模型中并不违反经典性线性回归模型的基本假设。

多重共线性的相关是指的变量之间的线性相关。

7、答:(1)是的。

经济时间序列数据有同向变动的趋势。

在这里,收入的滞后变量一般也可以相同的方向变动。

(2)在遇到时间序列数据存在线性相关性时,我们一般都是采用一阶或者高阶差分变换来消除共线性。

8、答:(1)是的。

这是因为2X 和3X 之间的相关系数为0,所以β系数的表达式22332322222323()()()()ˆ()()()i i i i i i i i i i i y x x y x x x x x x x β-=-∑∑∑∑∑∑∑、23222332222323()()()()ˆ()()()i i i i i i i i i i i y x x y x x x x x x x β-=-∑∑∑∑∑∑∑中的交叉乘积项消失,从而变成与α和γ系数同样的表示式。

(2)是它们的一个线性组合。

证明如下:122331222223333ˆˆˆˆˆˆˆˆˆY X X Y X Y X Y X Y X βββααβαγβ=--=-=-=-=- 因此有111ˆˆˆY βαγ=+-。

(3)不是。

原因如下:2222232222232ˆˆˆvar(),(0)(1)iir xr xσσβ===-∑∑2222ˆˆv a r ()ix σα=∑。

相关文档
最新文档