应用回归分析含定性变量的回归模型第九章课后答案

应用回归分析含定性变量的回归模型第九章课后答案
应用回归分析含定性变量的回归模型第九章课后答案

第9章 含定性变量的回归模型

思考与练习参考答案

9.1 一个学生使用含有季节定性自变量的回归模型,对春夏秋冬四个季节引入4个0-1型自变量,用SPSS 软件计算的结果中总是自动删除了其中的一个自变量,他为此感到困惑不解。出现这种情况的原因是什么? 答:假如这个含有季节定性自变量的回归模型为:

其中含有k 个定量变量,记为x i 。对春夏秋冬四个季节引入4个0-1型自变量,记为D i ,只取了6个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则样本设计矩阵为:

显然,(X,D)中的第1列可表示成后4列的线性组合,从而(X,D)不满秩,参数无法唯一求出。这就是所谓的“虚拟变量陷井”,应避免。

当某自变量x j 对其余p-1个自变量的复判定系数2

j R 超过一定界限时,SPSS 软件将拒绝这个自变量x j 进入回归模型。称Tol j =1-2

j R 为自变量x j 的容忍度(Tolerance ),SPSS 软件的默认容忍度为0.0001。也就是说,当2j R >0.9999时,自变量x j 将被自动拒绝在回归方程之外,除非我们修改容忍度的默认值。

而在这个模型中出现了完全共线性,所以SPSS 软件计算的结果中总是自动删除了其中的一个定性自变量。

9.2对自变量中含有定性变量的问题,为什么不对同一属性分别建立回归模型,而采取设虚拟变量的方法建立回归模型?

答:原因有两个,以例9.1说明。一是因为模型假设对每类家庭具有相同的斜率和误差方差,把两类家庭放在一起可以对公共斜率做出最佳估计;二是对于其他

t t t t kt k t t D D D X X Y μαααβββ++++++=332211110 ?????

?

??

?

?

?

?=00011001011000101001

0010100011

)(6

16515414313212111k k k k k k X X X X X X X X X X X X D X,???

???

?

??=k βββ 10β???

???

? ??=4321ααααα

统计推断,用一个带有虚拟变量的回归模型来进行也会更加准确,这是均方误差的自由度更多。

9.3 研究者想研究采取某项保险革新措施的速度y对保险公司的规模x

1

和保险公司类型的关系(参见参考文献【3】)。因变量的计量是第一个公司采纳这项革新和给定公司采纳这项革新在时间上先后间隔的月数。第一个自变量公司的规模是数量型的,用公司的总资产额(百万美元)来计量;第二个自变量公司是定性变量,由两种类型构成,即股份公司和互助公司。数据资料见表9.8,试建立y对公司规模和公司类型的回归。

表9.8

i y x

1

公司类型

1 17 151 互助

2 26 92 互助

3 21 175 互助

4 30 31 互助

5 22 104 互助

6 0 27

7 互助

7 12 210 互助

8 19 120 互助

9 4 290 互助

10 16 238 互助

11 28 164 股份

12 15 272 股份

13 11 295 股份

14 38 68 股份

15 31 85 股份

16 21 224 股份

17 20 166 股份

18 13 305 股份

19 30 124 股份

20 14 246 股份

解:对定型变量“公司类型”进行数量化处理:

引入虚拟变量x

2:公司类型为“互助”时,x

2

=1,为“股份”时, x

2

=0。

则表9.5中数据转换成以下数据:

i y x

1

公司类型

1 17 151 1

2 26 92 1

5 22 104 1

6 0 27

7 1

7 12 210 1

8 19 120 1

9 4 290 1

10 16 238 1

11 28 164 0

12 15 272 0

13 11 295 0

14 38 68 0

15 31 85 0

16 21 224 0

17 20 166 0

18 13 305 0

19 30 124 0

20 14 246 0 建立回归方程 y=b0+b1x1+b2x2+ε

用SPSS软件作线性回归,得到输出结果如下:

R检验:拟合优度R2=0.883,接近1,说明回归拟合的效果较好。

F检验:F值=72.497,Sig.值为0,说明回归方程通过F检验。

T 检验:回归系数通过t 检验,回归方程为:

y= 41.930-0.102 x 1-8.055 x 2

说明:若引入虚拟变量x 2,当公司类型为“互助”时,x 2=0,为“股份”时, x 2=1。 则回归方程为:

y= 33.874-0.102x 1 + 8.055x 2

结果分析:

(1)股份制公司采取保险革新措施的积极性比互助型公司高,原因可能在于股份制公司建立在共同承担风险上,所以更愿意革新;

(2)公司规模越大,采取保险革新措施的倾向越大:大规模公司的保险制度的更新对公司的影响程度比小规模公司大,因此大规模公司更倾向于比较更新措施和现有政策带来的效益,最终表现在采纳革新措施的时间间隔较短。

9.4.表9.9的数据是我国历年铁路里程数据,根据散点图观察在某时间点有折点,用折线回归拟合这个数据。

解:由散点图9(见下图)可看出在1995年(t=16)有折点,考虑由两段构成的分段线性回归,这可以通过引入一个0-1型虚拟自变量实现。 由散点图可知该折点为t=16,则引入虚拟自变量x ,

??

?>-≤=16

,16t 16

,0t t x 由SPSS 输出的调整后的决定系数20.980R =,说明拟合优度较好。

由输出的系数表可以得出回归方程为:x t y

106.0055.0183.5?++= 由SPSS 输出方程分析表可知,F 值为594.524,且P 值约为零,说明回归方程非常显著;

系数表中回归参数对应的t检验P值都约等于零,说明回归参数均通过了显著性检验。因此,折线方程成立。

散点图

方差分析表

系数表

9.5 某省统计局1990年9月在全省范围内进行了一次公众安全感问卷调查,参

考文献【10】选取了调查表中的一个问题进行分析。本题对其中的数据做了适

当的合并。对1391人填写的问卷设计:“一人在家是否害怕生人来”。因变量

y=1表示害怕,y=2表示不害怕。2个自变量:x1是年龄,x2是文化程度。各变

量的取值含义如表9.10所示。

现在的问题是:公民一人在家害怕生人来这个事件,与公民的年龄x1、文化程度x2有没有关系呢?调查数据见表9.11。

其中,p i是根据(9.44)式计算的。

(1)把公民的年龄x1、文化程度x2作为数值型变量,建立y对x1、x2的

logistic回归。

(2)把公民的年龄x1、文化程度x2作为定性型变量,用0-1变量将其数量化,

建立y对公民的年龄和文化程度的logistic回归。

(3)你对回归的效果是否满意,你认为主要的问题是什么?

解:(1) 先对P i 进行逻辑变换,令ln()1i i i

p

p p '=-,则

01122i i i i p x x βββε'=+++

直接用SPSS 进行y 与x1、x2的logistic 回归,输出结果如下:

由SPSS 输出系数表结果得到回归方程:p

'?=-0.144-0.0061x -0.1362x 则还原后logistic 回归方程为:

p

?=)

136.0006.0144.0exp(1)

136.0006.0144.0exp(2121x x x x ---+---

由方差分析表知F 值=0.386,P 值=0.687,大于5%,说明回归方程不显著; 由系数表知回归参数的t 检验均没有通过,因为P 值都大于5%,说明回归参数未通过显著性检验。

由于logistic 回归模型存在异方差,所以采用加权最小二乘法重新拟合,权重:

(1)i i i i n p p ω=-

SPSS 输出结果如下:

由输出结果得到回归方程:p '?=21331.0002.0146.0x x -+ 还原后的回归方程:p

?=)

331.0002.0146.0exp(1)

331.0002.0146.0exp(2121x x x x -++-+

由方差分析表结果知:F 值=4.304,P 值=0.037,小于5%,说明回归方程显著; 由系数表知1x 对应的回归系数相应的P 值=0.697,大于5%,说明1x 对应的回归系数没有通过检验,不显著;

2x 对应的回归系数相应的P 值=0.013,小于5%,说明2x 对应的回归系数通过检显著性验,且该回归系数为-0.331,,表明文化程度越高越不害怕。

(2) 把公民的年龄x1、文化程度x2作为定性型变量,引入6个0-1变量表示年龄1x

11111121311122221222322222,2237,3753,530,220,370,53

1,01,11,2

0,00,10,2

x x x x x x x x x x x x x x x x x x ===???===???

≠≠≠???===???===???

≠≠≠???,,,,

1) 直接进行y 与6个虚拟变量的未加权的logistic 回归,SPSS 输出结果如下:

由方差分析表知F=2.472,P值=0.106,大于5%,说明回归方程不显著;且除了

x外,其它自变量对应的回归系数都没通过检验。

12

下面通过后退法选择变量对上述模型改进。

SPSS输出结果如下表:

后退法的过程中剔除了211,x x ,留下了1312,x x ,但是13x 对应的回归系数未通过检验,将其剔除,最后留下了12x ;而且回归方程显著,

2) 加权回归:用后退法选择变量,由输出结果(如下)可知最后只留下了2x 。

从上表可以看出,最后只保留了变量2x (P 值小于0.05),回归方程

为:2?0.220.335p

x '=-

从模型概要表中可以看出模型四的回归方程的拟合优度不佳。 (3)对回归的效果不满意。变量1x 在不同的回归方法下显著性不同,对该变量的显著性判定还有待改进。如果能获得年龄的准确值做Logistic 回归的极大似然估计,可能会改进回归效果。

多元线性回归模型的案例分析

1. 表1列出了某地区家庭人均鸡肉年消费量Y 与家庭月平均收入X ,鸡肉价格P 1,猪肉价格P 2与牛肉价格P 3的相关数据。 年份 Y/千 克 X/ 元 P 1/(元/千克) P 2/(元/千克) P 3/(元/千克) 年份 Y/千克 X/元 P 1/(元/ 千克) P 2/(元/ 千克) P 3/(元/千克) 1980 2.78 397 4.22 5.07 7.83 1992 4.18 911 3.97 7.91 11.40 1981 2.99 413 3.81 5.20 7.92 1993 4.04 931 5.21 9.54 12.41 1982 2.98 439 4.03 5.40 7.92 1994 4.07 1021 4.89 9.42 12.76 1983 3.08 459 3.95 5.53 7.92 1995 4.01 1165 5.83 12.35 14.29 1984 3.12 492 3.73 5.47 7.74 1996 4.27 1349 5.79 12.99 14.36 1985 3.33 528 3.81 6.37 8.02 1997 4.41 1449 5.67 11.76 13.92 1986 3.56 560 3.93 6.98 8.04 1998 4.67 1575 6.37 13.09 16.55 1987 3.64 624 3.78 6.59 8.39 1999 5.06 1759 6.16 12.98 20.33 1988 3.67 666 3.84 6.45 8.55 2000 5.01 1994 5.89 12.80 21.96 1989 3.84 717 4.01 7.00 9.37 2001 5.17 2258 6.64 14.10 22.16 1990 4.04 768 3.86 7.32 10.61 2002 5.29 2478 7.04 16.82 23.26 1991 4.03 843 3.98 6.78 10.48 (1) 求出该地区关于家庭鸡肉消费需求的如下模型: 01213243ln ln ln ln ln Y X P P P u βββββ=+++++ (2) 请分析,鸡肉的家庭消费需求是否受猪肉及牛肉价格的影响。 先做回归分析,过程如下: 输出结果如下:

应用回归分析,第8章课后习题参考答案

第8章 非线性回归 思考与练习参考答案 8.1 在非线性回归线性化时,对因变量作变换应注意什么问题? 答:在对非线性回归模型线性化时,对因变量作变换时不仅要注意回归函数的形式, 还要注意误差项的形式。如: (1) 乘性误差项,模型形式为 e y AK L αβε =, (2) 加性误差项,模型形式为y AK L αβ ε = + 对乘法误差项模型(1)可通过两边取对数转化成线性模型,(2)不能线性化。 一般总是假定非线性模型误差项的形式就是能够使回归模型线性化的形式,为了方便通常省去误差项,仅考虑回归函数的形式。 8.2为了研究生产率与废料率之间的关系,记录了如表8.15所示的数据,请画出散点图,根据散点图的趋势拟合适当的回归模型。 表8.15 生产率x (单位/周) 1000 2000 3000 3500 4000 4500 5000 废品率y (%) 5.2 6.5 6.8 8.1 10.2 10.3 13.0 解:先画出散点图如下图: 5000.00 4000.003000.002000.001000.00x 12.00 10.00 8.006.00 y

从散点图大致可以判断出x 和y 之间呈抛物线或指数曲线,由此采用二次方程式和指数函数进行曲线回归。 (1)二次曲线 SPSS 输出结果如下: Model Summ ary .981 .962 .942 .651 R R Square Adjusted R Square Std. E rror of the Estimate The independent variable is x. ANOVA 42.571221.28650.160.001 1.6974.424 44.269 6 Regression Residual Total Sum of Squares df Mean Square F Sig.The independent variable is x. Coe fficients -.001.001-.449-.891.4234.47E -007.000 1.417 2.812.0485.843 1.324 4.414.012 x x ** 2 (Constant) B Std. E rror Unstandardized Coefficients Beta Standardized Coefficients t Sig. 从上表可以得到回归方程为:72? 5.8430.087 4.4710y x x -=-+? 由x 的系数检验P 值大于0.05,得到x 的系数未通过显著性检验。 由x 2的系数检验P 值小于0.05,得到x 2的系数通过了显著性检验。 (2)指数曲线 Model Summ ary .970 .941 .929 .085 R R Square Adjusted R Square Std. E rror of the Estimate The independent variable is x.

应用回归分析课后答案

应用回归分析课后答案 第二章一元线性回归 解答:EXCEL结果: SUMMARY OUTPUT 回归统计 Multiple R R Square Adjusted R Square 标准误差 观测值5 方差分析 df SS MS F Significance F 回归分析125 残差3 总计410 Coefficients标准误差t Stat P-value Lower 95%Upper 95%下限%上限% Intercept X Variable 15 RESIDUAL OUTPUT 观测值预测Y残差 1 2 3 4 5 SPSS结果:(1)散点图为:

(2)x 与y 之间大致呈线性关系。 (3)设回归方程为01y x ββ∧ ∧ ∧ =+ 1β∧ = 12 2 1 7()n i i i n i i x y n x y x n x -- =- =-=-∑∑ 0120731y x ββ-∧- =-=-?=- 17y x ∧ ∴=-+可得回归方程为 (4)22 n i=1 1()n-2i i y y σ∧∧=-∑ 2 n 01i=1 1(())n-2i y x ββ∧∧=-+∑ =222 22 13???+?+???+?+??? (10-(-1+71))(10-(-1+72))(20-(-1+73))(20-(-1+74))(40-(-1+75)) []1 169049363 110/3= ++++= 1 330 6.13 σ∧=≈ (5)由于2 11(, )xx N L σββ∧ :

t σ ∧ == 服从自由度为n-2的t分布。因而 /2 |(2)1 P t n α α σ ?? ?? <-=- ?? ?? 也即: 1/211/2 (p t t αα βββ ∧∧ ∧∧ -<<+=1α - 可得 1 95% β∧的置信度为的置信区间为(7-2.3537+2.353即为:(,) 2 2 00 1() (,()) xx x N n L ββσ - ∧ + : t ∧∧ == 服从自由度为n-2的t分布。因而 /2 (2)1 P t n α α ∧ ?? ?? ?? <-=- ?? ?? ?? ?? ?? 即 0/200/2 ()1 pβσββσα ∧∧∧∧ -<<+=- 可得 1 95%7.77,5.77 β∧- 的置信度为的置信区间为() (6)x与y的决定系数 2 21 2 1 () 490/6000.817 () n i i n i i y y r y y ∧- = - = - ==≈ - ∑ ∑ (7)

一元线性回归模型案例分析

一元线性回归模型案例分析 一、研究的目的要求 居民消费在社会经济的持续发展中有着重要的作用。居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。改革开放以来随着中国经济的快速发展,人民生活水平不断提高,居民的消费水平也不断增长。但是在看到这个整体趋势的同时,还应看到全国各地区经济发展速度不同,居民消费水平也有明显差异。例如,2002年全国城市居民家庭平均每人每年消费支出为6029.88元, 最低的黑龙江省仅为人均4462.08元,最高的上海市达人均10464元,上海是黑龙江的2.35倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,居民的收入水平、就业状况、零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我们研究的对象是各地区居民消费的差异。居民消费可分为城市居民消费和农村居民消费,由于各地区的城市与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城市居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。所以模型的被解释变量Y 选定为“城市居民每人每年的平均消费支出”。 因为研究的目的是各地区城市居民消费的差异,并不是城市居民消费在不同时间的变动,所以应选择同一时期各地区城市居民的消费支出来建立模型。因此建立的是2002年截面数据模型。 影响各地区城市居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。为了与“城市居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 从2002年《中国统计年鉴》中得到表2.5的数据: 表2.52002年中国各地区城市居民人均年消费支出和可支配收入

应用回归分析含定性变量的回归模型第九章课后答案

第9章 含定性变量的回归模型 思考与练习参考答案 9.1 一个学生使用含有季节定性自变量的回归模型,对春夏秋冬四个季节引入4个0-1型自变量,用SPSS 软件计算的结果中总是自动删除了其中的一个自变量,他为此感到困惑不解。出现这种情况的原因是什么? 答:假如这个含有季节定性自变量的回归模型为: 其中含有k 个定量变量,记为x i 。对春夏秋冬四个季节引入4个0-1型自变量,记为D i ,只取了6个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则样本设计矩阵为: 显然,(X,D)中的第1列可表示成后4列的线性组合,从而(X,D)不满秩,参数无法唯一求出。这就是所谓的“虚拟变量陷井”,应避免。 当某自变量x j 对其余p-1个自变量的复判定系数2 j R 超过一定界限时,SPSS 软件将拒绝这个自变量x j 进入回归模型。称Tol j =1-2 j R 为自变量x j 的容忍度(Tolerance ),SPSS 软件的默认容忍度为0.0001。也就是说,当2j R >0.9999时,自变量x j 将被自动拒绝在回归方程之外,除非我们修改容忍度的默认值。 而在这个模型中出现了完全共线性,所以SPSS 软件计算的结果中总是自动删除了其中的一个定性自变量。 9.2对自变量中含有定性变量的问题,为什么不对同一属性分别建立回归模型,而采取设虚拟变量的方法建立回归模型? 答:原因有两个,以例9.1说明。一是因为模型假设对每类家庭具有相同的斜率和误差方差,把两类家庭放在一起可以对公共斜率做出最佳估计;二是对于其他 t t t t kt k t t D D D X X Y μαααβββ++++++=332211110 ????? ? ?? ? ? ? ?=00011001011000101001 0010100011 )(6 16515414313212111k k k k k k X X X X X X X X X X X X D X,??? ??? ? ??=k βββ 10β??? ??? ? ??=4321ααααα

应用回归分析第2章课后习题参考答案

2.1 一元线性回归模型有哪些基本假定? 答:1. 解释变量 1x , ,2x ,p x 是非随机变量,观测值,1i x ,,2 i x ip x 是常数。 2. 等方差及不相关的假定条件为 ? ? ? ? ? ? ??????≠=====j i n j i j i n i E j i i ,0),,2,1,(,),cov(,,2,1, 0)(2 σεεε 这个条件称为高斯-马尔柯夫(Gauss-Markov)条件,简称G-M 条件。在此条件下,便可以得到关于回归系数的最小二乘估计及误差项方差2σ估计的一些重要性质,如回归系数的最小二乘估计是回归系数的最小方差线性无偏估计等。 3. 正态分布的假定条件为 ???=相互独立 n i n i N εεεσε,,,,,2,1),,0(~212 在此条件下便可得到关于回归系数的最小二乘估计及2σ估计的进一步结果,如它们分别是回归系数的最及2σ的最小方差无偏估计等,并且可以作回归的显著性检验及区间估计。 4. 通常为了便于数学上的处理,还要求,p n >及样本容量的个数要多于解释变量的个数。 在整个回归分析中,线性回归的统计模型最为重要。一方面是因为线性回归的应用最广泛;另一方面是只有在回归模型为线性的假设下,才能的到比较深入和一般的结果;再就是有许多非线性的回归模型可以通过适当的转化变为线性回归问题进行处理。因此,线性回归模型的理论和应用是本书研究的重点。 1. 如何根据样本),,2,1)(;,,,(21n i y x x x i ip i i =求出p ββββ,,,,210 及方差2σ的估计; 2. 对回归方程及回归系数的种种假设进行检验; 3. 如何根据回归方程进行预测和控制,以及如何进行实际问题的结构分析。 2.2 考虑过原点的线性回归模型 n i x y i i i ,,2,1,1 =+=εβ误差n εεε,,,21 仍满足基本假定。求1β的最小二 乘估计。 答:∑∑==-=-=n i n i i i i x y y E y Q 1 1 2112 1)())(()(ββ

应用回归分析课后习题参考答案

应用回归分析课后习题 参考答案 Document number【SA80SAB-SAA9SYT-SAATC-SA6UT-SA18】

第二章一元线性回归分析 思考与练习参考答案 一元线性回归有哪些基本假定 答:假设1、解释变量X是确定性变量,Y是随机变量; 假设2、随机误差项ε具有零均值、同方差和不序列相关性:E(ε i )=0 i=1,2, …,n Var (ε i )=2i=1,2, …,n Cov(ε i, ε j )=0 i≠j i,j= 1,2, …,n 假设3、随机误差项ε与解释变量X之间不相关: Cov(X i , ε i )=0 i=1,2, …,n 假设4、ε服从零均值、同方差、零协方差的正态分布 ε i ~N(0, 2) i=1,2, …,n 考虑过原点的线性回归模型 Y i =β 1 X i +ε i i=1,2, …,n 误差εi(i=1,2, …,n)仍满足基本假定。求β1的最小二乘估计解: 得: 证明(式),e i =0 ,e i X i=0 。 证明: ∑ ∑+ - = - = n i i i n i X Y Y Y Q 1 2 1 2 1 )) ? ?( ( )? (β β 其中: 即:e i =0 ,e i X i=0 2 1 1 1 2) ? ( )? ( i n i i n i i i e X Y Y Y Qβ ∑ ∑ = = - = - = ) ? ( 2 ?1 1 1 = - - = ? ?∑ = i i n i i e X X Y Q β β ) ( ) ( ? 1 2 1 1 ∑ ∑ = = = n i i n i i i X Y X β 01 ?? ?? i i i i i Y X e Y Y ββ =+=- 01 00 ?? Q Q ββ ?? == ??

多元线性回归模型案例分析

多元线性回归模型案例分析 ——中国人口自然增长分析一·研究目的要求 中国从1971年开始全面开展了计划生育,使中国总和生育率很快从1970年的降到1980年,接近世代更替水平。此后,人口自然增长率(即人口的生育率)很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关,为了研究此后影响中国人口自然增长的主要原因,分析全国人口增长规律,与猜测中国未来的增长趋势,需要建立计量经济学模型。 影响中国人口自然增长率的因素有很多,但据分析主要因素可能有:(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。(3)文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。 二·模型设定 为了全面反映中国“人口自然增长率”的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。暂不考虑文化程度及人口分布的影响。 从《中国统计年鉴》收集到以下数据(见表1): 表1 中国人口增长率及相关数据

, 设定的线性回归模型为: 1222334t t t t t Y X X X u ββββ=++++ 三、估计参数 利用EViews 估计模型的参数,方法是: 1、建立工作文件:启动EViews ,点击File\New\Workfile ,在对 话框“Workfile Range ”。在“Workfile frequency ”中选择“Annual ” (年 年份 @ 人口自然增长率 (%。) 国民总收入 (亿元) 居民消费价格指数增长 率(CPI )% 人均GDP (元) 1988 15037 1366 1989 … 17001 18 1519 1990 18718 1644 1991 【 21826 1893 1992 26937 2311 1993 . 35260 2998 1994 48108 4044 1995 — 59811 5046 1996 70142 5846 1997 ~ 78061 6420 1998 83024 6796 1999 【 88479 7159 2000 98000 7858 2001 [ 108068 8622 2002 119096 9398 2003 : 135174 10542 2004 159587 12336 2005 、 184089 14040 2006 213132 16024

应用回归分析,第4章课后习题参考答案.

第4章违背基本假设的情况 思考与练习参考答案 4.1 试举例说明产生异方差的原因。 答:例4.1:截面资料下研究居民家庭的储蓄行为 Y i=β0+β1X i+εi 其中:Y i表示第i个家庭的储蓄额,X i表示第i个家庭的可支配收入。 由于高收入家庭储蓄额的差异较大,低收入家庭的储蓄额则更有规律性,差异较小,所以εi的方差呈现单调递增型变化。 例4.2:以某一行业的企业为样本建立企业生产函数模型 Y i=A iβ1K iβ2L iβ3eεi 被解释变量:产出量Y,解释变量:资本K、劳动L、技术A,那么每个企业所处的外部环境对产出量的影响被包含在随机误差项中。由于每个企业所处的外部环境对产出量的影响程度不同,造成了随机误差项的异方差性。这时,随机误差项ε的方差并不随某一个解释变量观测值的变化而呈规律性变化,呈现复杂型。 4.2 异方差带来的后果有哪些? 答:回归模型一旦出现异方差性,如果仍采用OLS估计模型参数,会产生下列不良后果: 1、参数估计量非有效 2、变量的显著性检验失去意义 3、回归方程的应用效果极不理想 总的来说,当模型出现异方差性时,参数OLS估计值的变异程度增大,从而造成对Y的预测误差变大,降低预测精度,预测功能失效。 4.3 简述用加权最小二乘法消除一元线性回归中异方差性的思想与方法。 答:普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。其中每个平方项的权数相同,是普通最小二乘回归参数估计方法。在误差项等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。然而在异方差

的条件下,平方和中的每一项的地位是不相同的,误差项的方差大的项,在残差平方和中的取值就偏大,作用就大,因而普通最小二乘估计的回归线就被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。由OLS 求出的仍然是的无偏估计,但不再是最小方差线性无偏估计。所以就是:对较大的残差平方赋予较小的权数,对较小的残差平方赋予较大的权数。这样对残差所提供信息的重要程度作一番校正,以提高参数估计的精度。 加权最小二乘法的方法: 4.4简述用加权最小二乘法消除多元线性回归中异方差性的思想与方法。 答:运用加权最小二乘法消除多元线性回归中异方差性的思想与一元线性回归的类似。多元线性回归加权最小二乘法是在平方和中加入一个适当的权数i w ,以调整各项在平方和中的作用,加权最小二乘的离差平方和为: ∑=----=n i ip p i i i p w x x y w Q 1211010)( ),,,(ββββββ (2) 加权最小二乘估计就是寻找参数p βββ,,,10 的估计值pw w w βββ?,,?,?10 使式(2)的离差平方和w Q 达极小。所得加权最小二乘经验回归方程记做 22011 1 ???()()N N w i i i i i i i i Q w y y w y x ββ===-=--∑∑22 __ 1 _ 2 _ _ 02 222 ()() ?()?1 11 1 ,i i N w i i i w i w i w w w w w kx i i i i m i i i m i w x x y y x x y x w kx x kx w x σβββσσ==---=-= = ===∑∑1N i =1 1表示=或

案例分析 一元线性回归模型

案例分析报告 (2014——2015学年第一学期) 课程名称:预测与决策 专业班级:电子商务1202 学号: 2204120202 学生姓名:陈维维 2014 年 11月 案例分析(一元线性回归模型) 我国城镇居民家庭人均消费支出预测 一、研究目的与要求 居民消费在社会经济的持续发展中有着重要的作用,居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。从理论角度讲,消费需求的具体内容主要体现在消费结构上,要增加居民消费,就要从研究居民消费结构入手,只有了解居民消费结构变化的趋势和规律,掌握消费需求的热点和发展方向,才能为消费者提供良好的政策环境,引导消费者合理扩大消费,才能促进产业结构调整与消费结构优化升级相协调,才能推动国民经济平稳、健康发展。例如,2008年全国城镇居民家庭平均每人每年消费支出为11242.85元,?最低的青海省仅为人均8192.56元,最高的上海市达人均19397.89元,上海是黑龙江的2.37倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定?

我研究的对象是各地区居民消费的差异。居民消费可分为城镇居民消费和农村居民消费,由于各地区的城镇与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城镇居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。 所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。 因为研究的目的是各地区城镇居民消费的差异,并不是城镇居民消费在不同时间的变动,所以应选择同一时期各地区城镇居民的消费支出来建立模型。因此建立的是2008年截面数据模型。影响各地区城镇居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。 为了与“城镇居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 以下是2008年各地区城镇居民人均年消费支出和可支配收入表

应用回归分析,第7章课后习题参考答案

第7章岭回归 思考与练习参考答案 7.1 岭回归估计是在什么情况下提出的? 答:当自变量间存在复共线性时,|X’X|≈0,回归系数估计的方差就很大,估计值就很不稳定,为解决多重共线性,并使回归得到合理的结果,70年代提出了岭回归(Ridge Regression,简记为RR)。 7.2岭回归的定义及统计思想是什么? 答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其统计思想是对于(X’X)-1为奇异时,给X’X加上一个正常数矩阵 D, 那么X’X+D接近奇异的程度就会比X′X接近奇异的程度小得多,从而完成回归。但是这样的回归必定丢失了信息,不满足blue。但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。 7.3 选择岭参数k有哪几种方法? 答:最优 是依赖于未知参数 和 的,几种常见的选择方法是: 岭迹法:选择 的点能使各岭估计基本稳定,岭估计符号合理,回归系数没有不合乎经济意义的绝对值,且残差平方和增大不太多;

方差扩大因子法: ,其对角线元 是岭估计的方差扩大因子。要让 ; 残差平方和:满足 成立的最大的 值。 7.4 用岭回归方法选择自变量应遵循哪些基本原则? 答:岭回归选择变量通常的原则是: 1. 在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量; 2. 当k值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随着k的增加迅速趋近于零。像这样岭回归系数不稳定、震动趋于零的自变量,我们也可以予以剔除; 3. 去掉标准化岭回归系数很不稳定的自变量。如果有若干个岭回归系数不稳定,究竟去掉几个,去掉那几个,要根据去掉某个变量后重新进行岭回归分析的效果来确定。

应用回归分析第三章课后习题整理

y1 1 x11 x12 x1p 0 1 3.1 y2 1 x21 x22 x2p 1 + 2 即y=x + yn 1 xn1 xn2 xnp p n 基本假定 (1) 解释变量x1,x2…,xp 是确定性变量,不是随机变量,且要求 rank(X)=p+1

n 注 tr(H) h 1 3.4不能断定这个方程一定很理想,因为样本决定系数与回归方程中 自变量的数目以及样本量n 有关,当样本量个数n 太小,而自变量又较 多,使样本量与自变量的个数接近时, R 2易接近1,其中隐藏一些虚 假成分。 3.5当接受H o 时,认定在给定的显著性水平 下,自变量x1,x2, xp 对因变量y 无显著影响,于是通过x1,x2, xp 去推断y 也就无多大意 义,在这种情况下,一方面可能这个问题本来应该用非线性模型去描 述,而误用了线性模型,使得自变量对因变量无显著影响;另一方面 可能是在考虑自变量时,把影响因变量y 的自变量漏掉了,可以重新 考虑建模问题。 当拒绝H o 时,我们也不能过于相信这个检验,认为这个回归模型 已经完美了,当拒绝H o 时,我们只能认为这个模型在一定程度上说明 了自变量x1,x2, xp 与自变量y 的线性关系,这时仍不能排除排除我 们漏掉了一些重要的自变量。 3.6中心化经验回归方程的常数项为0,回归方程只包含p 个参数估计 值1, 2, p 比一般的经验回归方程减少了一个未知参数,在变量较 SSE (y y)2 e12 e22 1 2 1 E( ) E( - SSE* - n p 1 n p n 2 [D(e) (E(e ))2 ] 1 n (1 1 n 2 en n E( e 1 1 n p 1 1 n p 1 1 "1 1 n p 1 J (n D(e) 1 (p 1)) 1_ p 1 1 1 n p 1 2 2 n E(e 2 ) (1 h ) 2 1

多元线性回归模型案例

我国农民收入影响因素的回归分析 本文力图应用适当的多元线性回归模型,对有关农民收入的历史数据和现状进行分析,探讨影响农民收入的主要因素,并在此基础上对如何增加农民收入提出相应的政策建议。?农民收入水平的度量常采用人均纯收入指标。影响农民收入增长的因素是多方面的,既有结构性矛盾因素,又有体制性障碍因素。但可以归纳为以下几个方面:一是农产品收购价格水平。二是农业剩余劳动力转移水平。三是城市化、工业化水平。四是农业产业结构状况。五是农业投入水平。考虑到复杂性和可行性,所以对农业投入与农民收入,本文暂不作讨论。因此,以全国为例,把农民收入与各影响因素关系进行线性回归分析,并建立数学模型。 一、计量经济模型分析 (一)、数据搜集 根据以上分析,我们在影响农民收入因素中引入7个解释变量。即:2x -财政用于农业的支出的比重,3x -第二、三产业从业人数占全社会从业人数的比重,4x -非农村人口比重,5x -乡村从业人员占农村人口的比重,6x -农业总产值占农林牧总产值的比重,7x -农作物播种面积,8x —农村用电量。

资料来源《中国统计年鉴2006》。 (二)、计量经济学模型建立 我们设定模型为下面所示的形式: 利用Eviews 软件进行最小二乘估计,估计结果如下表所示: DependentVariable:Y Method:LeastSquares Sample: Includedobservations:19 Variable Coefficient t-Statistic Prob. C X1 X3 X4 X5 X6 X7 X8 R-squared Meandependentvar AdjustedR-squared 表1最小二乘估计结果 回归分析报告为: () ()()()()()()()()()()()()()()() 2345678 2? -1102.373-6.6354X +18.2294X +2.4300X -16.2374X -2.1552X +0.0100X +0.0634X 375.83 3.7813 2.066618.37034 5.8941 2.77080.002330.02128 -2.933 1.7558.820900.20316 2.7550.778 4.27881 2.97930.99582i Y SE t R ===---=230.99316519 1.99327374.66 R Df DW F ====二、计量经济学检验 (一)、多重共线性的检验及修正 ①、检验多重共线性 (a)、直观法 从“表1最小二乘估计结果”中可以看出,虽然模型的整体拟合的很好,但是x4x6

应用回归分析第三版·何晓群-第三章所有习题答案

应用回归分析第三章习题 3.1 y x =β 基本假定: (1) 诸1234n x ,x x ,x x ……非随机变量,rank (x )=p+1,X 为满秩矩阵 (2) 误差项()()200i i j E ,i j cov ,,i j ?ε=? ?δ=?εε=??≠?? (3)()2 0i i j ~N ,,?εδ??εε??诸相互独立 3.2 ()10111 ?X X X X |rank(X X )p rank(X )p n p -'β'≠'=+≥+≥+存在,必须使存在。即|则必有故 3.3 ()()()() ()22 11 122 12 22211111111 n n n i i ii i i i n ii i n i i E e D e h n h n p ?E E e n p n p n p =====??==-δ ????? =-δ=--δ ??? ??∴δ ==--δ=δ ? ----??∑∑∑∑∑ 3.4 并不能这样武断地下结论。2 R 与回归方程中的自变量数目以及样本量n 有关,当样本量n 与自变量个数接近时,2 R 易接近1,其中隐含着一些虚假成分。因此,并不能仅凭很大的2 R 就模型的优劣程度。 3.5 首先,对回归方程的显著性进行整体上的检验——F 检验 001230p H :β=β=β=β==β=……

接受原假设:在显著水平α下,表示随机变量y 与诸x 之间的关系由线性模型表示不合适 拒绝原假设:认为在显著性水平α下,y 与诸x 之间有显著的线性关系 第二,对单个自变量的回归系数进行显著性检验。 00i H :β= 接受原假设:认为i β=0,自变量i x 对y 的线性效果并不显著 3.6 原始数据由于自变量的单位往往不同,会给分析带来一定的困难;又由于设计的数据量较大,可能会以为舍入误差而使得计算结果并不理想。中心化和标准化回归系数有利于消除由于量纲不同、数量级不同带来的影响,避免不必要的误差。 3.7 11 22 011122201122p p p p p p p ?????y x x x ??????y y (x x )(x x )(x x )????y x x )x x )x x )y =β +β+β++β-=β+β-+β-++β--ββ=-+-++-=对最小二乘法求得一般回归方程: ……对方程进行如下运算: …… ……*j j ?+β=……即 3.8 121321233132212312212331 312311232332 13 231313********* 111 r r r r r r r r r r r r r r r r r r r r r ?? ?= ? ????==-?= =-?= =-即证

SPSS线性回归分析案例

回归分析 实验内容:基于居民消费性支出与居民可支配收入的简单线性回归分析 【研究目的】 居民消费在社会经济的持续发展中有着重要的作用。影响各地区居民消费支出的因素很多,例如居民的收入水平、商品价格水平、收入分配状况、消费者偏好、家庭财产状况、消费信贷状况、消费者年龄构成、社会保障制度、风俗习惯等等。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的经济模型去研究。 【模型设定】 : 我们研究的对象是各地区居民消费的差异。由于各地区的城市与农村人口比例及经济结构有较大差异,现选用城镇居民消费进行比较。模型中被解释变量Y选定为“城市居民每人每年的平均消费支出”。从理论和经验分析,影响居民消费水平的最主要因素是居民的可支配收入,故可以选用“城市居民每人每年可支配收入”作为解释变量X,选取2010年截面数据。 1、实验数据 表1: —

2010年中国各地区城市居民人均年消费支出和可支配收入

| 数据来源:《中国统计年鉴》2010年 2、实验过程 作城市居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)的散点图,如图1:

表2 模型汇总b — 模型 R R方调整R方标准估计的误差 - 1 .965a.932.930 ~ a.预测变量:(常量),可支配收入X(元)。 b.因变量:消费性支出Y(元) 表3 相关性 、 消费性支出Y (元) 可支配收入X(元) Pearson相关 性消费性支出Y(元)& .965 ! 从散点图可以看出居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)大体呈现为线性关系,所以建立如下线性模型:Y=a+bX

第一章课后习题解答(应用回归分析)

1、 变量间统计关系和函数关系的区别是什么 答:函数关系是一种确定性的关系,一个变量的变化能完全决定另一个变量的变化;统计关系是非确定的,尽管变量间的关系密切,但是变量不能由另一个或另一些变量唯一确定。 2、 回归分析与相关分析的区别和联系是什么 答:联系:刻画变量间的密切联系; 区别:一、回归分析中,变量y 称为因变量,处在被解释的地位,而在相关分析中,变量y 与x 处于平等地位;二、相关分析中y 与x 都是随机变量,而回归分析中y 是随机的,x 是非随机变量。三、回归分析不仅可以刻画线性关系的密切程度,还可以由回归方程进行预测和控制。 3、 回归模型中随机误差项ε的意义是什么主要包括哪些因素 答:随机误差项ε的引入,才能将变量间的关系描述为一个随机方程。主要包括:时间、费用、数据质量等的制约;数据采集过程中变量观测值的观测误差;理论模型设定的误差;其他随机误差。 4、 线性回归模型的基本假设是什么 答:1、解释变量非随机;2、样本量个数要多于解释变量(自变量)个数;3、高斯-马尔科夫条件;4、随机误差项相互独立,同分布于2(0,)N σ。 5、 回归变量设置的理论根据在设置回归变量时应注意哪些问题 答:因变量与自变量之间的因果关系。需注意问题:一、对所研究的问题背景要有足够了解;二、解释变量之间要求不相关;三、若某个重要的变量在实际中没有相应的统计数据,应考虑用相近的变量代替,或者由其他几个指标复合成一个新的指标;四、解释变量并非越多越好。 6、 收集、整理数据包括哪些内容 答:一、收集数据的类型(时间序列、截面数据);二、数据应注意可比性和数据统计口径问题(统计范围);三、整理数据时要注意出现“序列相关”和“异

应用回归分析部分答案

第9章非线性回归 9.1 在非线性回归线性化时,对因变量作变换应注意什么问题? 答:在对非线性回归模型线性化时,对因变量作变换时不仅要注意回归函数的形式,还要注意误差项的形式。如: (1)乘性误差项,模型形式为, (2)加性误差项,模型形式为。 对乘法误差项模型(1)可通过两边取对数转化成线性模型,(2)不能线性化。 一般总是假定非线性模型误差项的形式就是能够使回归模型线性化的形式,为了方便通常省去误差项,仅考虑回归函数的形式。 9.2为了研究生产率与废料率之间的关系,记录了如表9.14所示的数据,请画出散点图,根据散点图的趋势拟合适当的回归模型。 表9.14 生产率x(单位/周) 1 35 000 废品率y(%) 5.2 6.5 6.8 8.1 10.2 10.3 13.0 解:先画出散点图如下图: 从散点图大致可以判断出x和y之间呈抛物线或指数曲线,由此

采用二次方程式和指数函数进行曲线回归。 (1)二次曲线 SPSS输出结果如下: 从上表可以得到回归方程为: 由x的系数检验P值大于0.05,得到x的系数未通过显著性检验。由x2的系数检验P值小于0.05,得到x2的系数通过了显著性检验。(2)指数曲线

从上表可以得到回归方程为: 由参数检验P值≈0<0.05,得到回归方程的参数都非常显著。 从R2值,σ的估计值和模型检验统计量F值、t值及拟合图综合考虑,指数拟合效果更好一些。

9.3 已知变量x与y的样本数据如表9.15,画出散点图,试用αeβ/x来拟合回归模型,假设: (1)乘性误差项,模型形式为y=αeβ/x eε (2)加性误差项,模型形式为y=αeβ/x+ε。 表9.15 序号x y 序号x y 序号x y 1 4.20 0.086 6 3.20 0.150 11 2.20 0.350 2 4.06 0.090 7 3.00 0.170 12 2.00 0.440 3 3.80 0.100 8 2.80 0.190 13 1.80 0.620 4 3.60 0.120 9 2.60 0.220 14 1.60 0.940 5 3.40 0.130 10 2.40 0.240 15 1.40 1.620 解:散点图: (1)乘性误差项,模型形式为y=αeβ/x eε 线性化:lny=lnα+β/x +ε令y1=lny, a=lnα,x1=1/x .

应用回归分析,第3章课后习题参考答案

第3章 多元线性回归 思考与练习参考答案 3.2 讨论样本容量n 与自变量个数p 的关系,它们对模型的参数估计有何影响? 答:在多元线性回归模型中,样本容量n 与自变量个数p 的关系是:n>>p 。如果n<=p 对模型的参数估计会带来很严重的影响。因为: 1. 在多元线性回归模型中,有p+1个待估参数β,所以样本容量的个数应该大于解释变量的个数,否则参数无法估计。 2. 解释变量X 是确定性变量,要求()1rank p n =+

相关文档
最新文档