第三章 一元线性回归模型

第三章  一元线性回归模型
第三章  一元线性回归模型

第三章 一元线性回归模型

一、预备知识 (一)相关概念

对于一个双变量总体),(i i x y ,若由基础理论,变量x 和变量y 之间存在因果关系,或x 的变异可用来解释y 的变异。为检验两变量间因果关系是否存在、度量自变量x 对因变量y 影响的强弱与显著性以及利用解释变量x 去预测因变量

y ,引入一元回归分析这一工具。

将给定i x 条件下i y 的均值

i i i x x y E 10)|(ββ+= (3.1) 定义为总体回归函数(Population Regression Function,PRF )。定义

)|(i i i x y E y -为误差项(error term ),记为i μ,即)|(i i i i x y E y -=μ,这样i i i i x y E y μ+=)|(,或

i i i x y μββ++=10 (3.2) (3.2)式称为总体回归模型或者随机总体回归函数。其中,x 称为解释变量(explanatory variable )或自变量(independent variable );y 称为被解释变量(explained variable )或因变量(dependent variable );误差项μ解释了因变量的变动中不能完全被自变量所解释的部分。误差项的构成包括以下四个部分:

(1)未纳入模型变量的影响 (2)数据的测量误差

(3)基础理论方程具有与回归方程不同的函数形式,比如自变量与因变量之间可能是非线性关系

(4)纯随机和不可预料的事件。

在总体回归模型(3.2)中参数10,ββ是未知的,i μ是不可观察的,统计计量分析的目标之一就是估计模型的未知参数。给定一组随机样本

n i y x i i ,,2,1),,( =,对(3.1)式进行估计,若10,),|(ββi i x y E 的估计量分别记为^

1^

0^

,,ββi y ,则定义3.3式为样本回归函数

i i x y ^

1^

0^

ββ+= (n i ,,2,1 =) (3.3)

注意,样本回归函数随着样本的不同而不同,也就是说^

1^

0,ββ是随机变量,它们的随机性是由于i y 的随机性(同一个i x 可能对应不同的i y )与x 的变异共同引起的。定义^

i i y y -为残差项(residual term ),记为i e ,即^

i i i y y e -=,这样

i i i e y y +=^

,或

i i i e x y ++=^

1^0ββ (n i ,,2,1 =) (3.4)

(3.4)式称为样本回归模型或者随机样本回归函数。样本回归模型中残差项i e 可视为总体回归模型中误差项i μ的估计量。 (二)参数估计:普通最小二乘法

如何估计总体参数10,ββ的估计量^

1^0,ββ,或如何获得样本回归函数呢?在回归分析中,使用最广泛的方法是最小二乘法,一般称为普通最小二乘法(Ordinary Least Squares,OLS )1

。OLS 求解未知参数10,ββ的估计量^

1^0,ββ,使残差平方和最小。即

∑∑∑===--=-=n

i i i n

i i i n

i i

x y y y e Minimize 1

2^

1^

01

2

^

1

2

)()(ββ (3.5)

求解(3.5)式可得

∑∑==---=

n

i i

n

i i i

x x

y y x x

1

2

1

^

1)()

)((β ,x y ^

1^0ββ-= (3.6)

其中,∑==n i i x n x 1

1,∑==n

i i y n y 11。

(三)古典线性回归模型

统计推断除了包括参数估计外还包括假设检验,在根据样本回归函数检验假设时,需要对误差项i μ的生成过程做一些假定。

假定1 回归模型是参数线性的,但可以不是变量线性的。 假定2 解释变量i x 与随机误差项i μ不相关。即

0),cov(=i i x μ。

如果解释变量i x 是非随机的,则该假设自动满足。 假定3 零均值假定。即

0)(=i E μ

假定4 同方差假定。即

2)var(σμ=i

假定5 无自相关假定。即两个误差项之间不相关

0),cov(=j i μμ j i ≠

假定6 回归模型是正确设定的。 假定7 正态性假定。即

i μ~),0(2σN

1

之所以称为普通最小二乘法,是因为还有一种方法称为广义最小二乘法,普通最小二乘法是广义最小二乘法的特例。

满足以上假定的回归模型称为古典线性回归模型(Classical Line Regression Model,CLRM )。 (四)高斯-马尔科夫定理

如果古典线性回归模型的基本假定成立,则OLS 估计是最优线性无偏估计量(Best Linear Unbiased Estimators,BLUE )。 (五)预测原理

回归分析的目的之一是利用回归模型预测因变量。比如,金融决策经常涉及一个长期的资源承诺(a long-term commitment of resources ), 决策的收益将取决于将来发生的事情。

假设双变量总体的回归模型为(3.2),即

i i i x y μββ++=10 (3.2) 在一组随机样本n i x y i i ,,2,1),,( =下,利用OLS 求得样本回归函数为(3.3) i i x y ^

1^

0^

ββ+= (n i ,,2,1 =) (3.3) 给定样本外一点f x ,则因变量f y 的点预测为

f f x y ^

1^

0^

ββ+= (3.7) 点预测^

f y 的标准误为

∑=--++=n

i i

f f x x

x x n

y se 1

22

^

^

)()(1

1)(σ (3.8)

因变量f y 的置信度为α-1的区间预测为

[)()2(^

2^

f f y se n t y --α, )()2(^

2^

f f y se n t y -+α] (3.9)

二、案例

[案例1] 经济形势对人们工作意愿的影响

根据劳动经济学理论,经济形势对人们工作意愿的影响存在两个互相独立的效应:受挫工人效应和增加工人效应。用失业率度量(UNR)经济形势,用劳动力参与率(LFPR)度量人们的工作意愿。受挫工人假说认为当经济形势恶化时,许多失业工人就业意愿降低,放弃寻找工作并退出劳动力市场,从而劳动力参与率下降;增加工人假说认为当经济形势恶化时,许多尚未进入劳动力市场的后备工人,比如带孩子的母亲,可能会由于养家的人失去工作而决定进入劳动力市场,即使这些工作的报酬很低,只要可以弥补由于养家的人失去工作而造成的损失即可,从而劳动参与率上升。

劳动参与率的增加或减少取决于增加工人效应和受挫工人效应的强弱对比。如果增加工人效应占主导,则LFPR将升高;相反,如果受挫工人效应占主导,则LFPR将会下降。因此,劳动参与率是上升还是下降,是一个实证问题。

表3-1给出了美国1980-2002年城市劳动参与率(CLFPR)和城市失业率(CUNR)数据,城市失业率是指城市失业人口占城市劳动力的百分比。

表3-1 1980-2002美国城市劳动力参与率、城市失业率与实际平均每小时国内工资

year CLFPR(%) CUNR(%) AHE82($)

1980 63.8 7.1 7.78

1981 63.9 7.6 7.69

1982 64.0 9.7 7.68

1983 64.0 9.6 7.79

1984 64.4 7.5 7.80

1985 64.8 7.2 7.77

1986 65.3 7.0 7.81

1987 65.6 6.2 7.73

1988 65.9 5.5 7.69

1989 66.5 5.3 7.64

1990 66.5 5.6 7.52

1991 66.2 6.8 7.45

1992 66.4 7.5 7.41

1993 66.3 6.9 7.39

1994 66.6 6.1 7.40

1995 66.6 5.6 7.40

1996 66.8 5.4 7.43

1997 67.1 4.9 7.55

1998 67.1 4.5 7.75

1999 2000 67.1

67.2

4.2

4.0

7.86

7.89

2001 66.9 4.8 7.99

2002 66.6 5.8 8.14

注:AHE82代表以1982年价计算的平均每小时工资。

资料来源:参考文献[1],3-5。

三、实验目的

[案例1] 经济形势对人们工作意愿的影响

1、用Eviews软件绘制CUNR与CLFPR之间的散点图,观察两变量之间的线性关系;

2、根据劳动经济学理论以及散点图分析,为研究经济形势对人们工作意愿的影响,建立一元线性回归模型;

3、根据劳动经济学理论,对回归系数的符号进行预期并加以解释;

4、利用表3-1提供的数据,利用OLS法对问题2中建立的回归方程进行估计;

5、在Word 文件中报告回归结果并对回归结果进行解释;

6、显示因变量的实际值、拟合值,残差表(残差图);

7、绘制回归残差的直方图,并对残差进行正态性检验;

8、计算CUNR 的估计系数置信度为0.95的置信区间,该区间包括零吗? 9、利用1980-1999年的数据为样本,再次估计问题2中建立的回归模型,并利用估计的结果,给出2000-2002年clfpr 的点预测和区间预测(置信度为0.95)。 四、实验步骤

[案例1] 经济形势对人们工作意愿的影响

1、(1)建立工作文件 workfile clfpr-cunr a 1980 2002 (2)录入数据 data cunr clfpr

(3) 绘制散点图 打开包含序列cunr 和clfpr 组对象,点击View/Graph ,在出现的Graph Options 窗口的Specifi 选项中选择Scatter ,在Fit Lines 中选择Regression Line ,点击确定。

图3-1 城市劳动参与率与城市失业率的散点图

从图3-1可以观察到城市劳动参与率与城市失业率存在较明显的负相关关系。另外,也可通过计算两变量之间的简单相关系数,判断两变量之间线性关系的方向和程度。在命令窗口键入cor cunr clfpr ,在随后出现的相关系数矩阵中显示cunr 与 clfpr 之间的相关系数为-0.843967。

尽管用简单相关系数可以很方便地判断两变量之间线性相关的方向和程度,但散点图依然不可替代。有时自变量与因变量之间并非线性关系,但通过一定的变量变换可转化为线性关系,而散点图可以为选择何种变换提供直观的帮助。 2、根据劳动经济学理论以及散点图分析,为研究经济形势对人们工作意愿的影响,建立一元线性回归模型如下:

t t t cunr clfpr μββ++=10

这里,人们的工作意愿是我们的研究对象,经济形势是影响因素。故clfpr

是因变量或被解释变量,cunr 是自变量或解释变量。

3、从理论上分析,回归系数1β表示cunr 对clfpr 的边际影响,其符号取决于增加工人效应和受挫工人效应的强弱对比。如果增加工人效应大于受挫工人效应,则1β为正值;相反,如果增加工人效应小于受挫工人效应,则1β为负值。

从实证角度分析,由图3-1的散点图可知,cunr 与clfpr 负相关关系,即1

β为负值,表示cunr 每提高1个百分点,clfpr 将下降1β个百分点。

4、在对象目录窗口点击object/new object ,在出现的对象类型中选择equation,在对象名中填写eq1,点击OK ,出现图3-2对话框

图3-2 方程的设定

方程的设定有两种方式,一种方式是列表法,即在Equation specification 窗口依次列出被解释变量、常数项、自变量,变量之间用空格隔开,如图3-2所示。另一种方式是公式法,比如clfpr= c(1) + c(2)*cunr ,EViews 会在方程中添加一个随机附加扰动项。

点击方程对象窗口中的View/Representation 将会看到如上形式的方程。 在估计方法中选择最小二乘法,样本范围填写1980到2002。设定完毕后点击确定。出现图3-3。

图3-3 方程估计结果

下面结合案例1对方程估计的输出结果进行解释。

回归系数(Coeffient ):系数度量的是它所对应的解释变量对预测的贡献。常数项C 的估计值表示所有其他解释变量取零时预测的基础水平,一般情况下可不予解释。回归系数的计算公式参见式(3.6),本例中cunr 的系数为-0.646948,表示城市失业率每上升1个百分点,城市劳动参与率将下降0.646948个百分点。 标准误差(Std.Error ):主要用来衡量回归系数的统计可靠性。标准误差越大,回归系数估计值越不可靠。回归系数方差和标准差的计算公式如下:

2

2

22

^

0)

()var(^

σσ

ββ∑∑-=

=x x n x

i

i ,∑-=

=2

2

2

^

1)

()var(^

1

x x

i

σσ

ββ

)var()(^0^0ββ=se ,)var()(^

1^

1ββ=se (3.7) 由公式可见,回归系数的变异来源于因变量的变异(2σ:同一个i x 可能对应不同的i y )和自变量的变异。

t 统计量(t-Statistic ):t 统计量用来检验某个系数是否为零,即检验该变量是否应该存在于回归模型中。t 统计量的计算公式为

)(^

^

ββse t = (3.8)

本例中^

1β的t 统计量的值为t=-0.646948/0.094566=-6.841253<-2.07=@qtdist(0.025,21),故在0.05的显著性水平下,^

1β显著异于零,即城市失业率对城市劳动参与率有显著影响。

概率值(Prob.):又称边际显著性水平(marginal significance level )。该列显示t 统计量大于前一列t 统计量值的概率(如果t 统计量值为正值),或者小于前一列t 统计量值的概率(如果t 统计量值为负值)。

概率值的计算可采用如下Eviews 命令:

Prob.= @ctdist(-6.841253,21)=0.0000<0.025(注意,这里的检验为双侧检验)

通过概率值可以方便地判断是拒绝还是接受系数真值为零的假设。如果概率值小于给定的显著性水平就拒绝系数真值为零的原假设,否则就接受。本例概率值为0.0000小于0.025,故在0.05的显著性水平下,^

1β显著异于零,即城市失业率对城市劳动参与率有显著影响。

可决系数(R-Squared ):R 2衡量的是在样本范围内用回归来预测被解释变量的好坏程度,是被解释变量能够被解释变量所解释的部分,因此一般越大越好。本例中R 2的值为0.690278。可决系数的计算公式为

TSS RSS TSS ESS R -==12 (3.9) RSS ESS TSS += (3.10)

∑-=2

)(y y TSS i ,∑-=2

^

)(y y ESS i ,∑∑=-=22^

)(i i i e y y RSS

其中, TSS (Total Sum of Squares )称为总平方和;

ESS (Explained Sum of Squares )称为解释平方和或者回归平方和;

RSS (Residual Sum of Squares )称为残差平方和。 (3.10)式称为方差分解

调整的可决系数(Adjusted R-Sq uared ):计算公式为

1

1

)

1(1)1)1(122

-----=----

=k n n R n TSS k n RSS R 由公式可见,调整的可决系数是指对残差平方和与总平方和经过自由度调整的可决系数。一般来说,在回归模型中增加解释变量的个数,可决系数会增加,但调整的可决系数不一定会增加,这为是否应该向模型中添加一个新变量提供了一个判别依据。在回归报告中通常报告调整的可决系数,而不报告可决系数。另外,调整的可决系数小于可决系数。本例调整的可决系数为0.675529。 回归的标准误差(S.E.of regression ):回归标准误是一个对预测误差大小的总体度量指标。计算公式为 k

n RSS

k

n e

i

-=

-=

∑2

^

σ (3.11) 式中,n 表示样本容量,k 表示估计参数的个数,n-k 表示自由度,本例n=23,k=2,n-k=21,RSS=9.307010,可通过

Eviews

命令求解:

=@sqrt(9.307010/21)=0.665725883815,与方程的输出结果0.665726一致。 残差平方和(Sum squared resid ):如上∑=2i e RSS ,本例的残差平方和为9.307010。

对数似然估计值(Log likelihood ):可以通过观察方程的约束式和非约束式的对数似然的差异来进行似然比检验。

F 统计量(F-Statistic ):这是对回归方程的所有系数均为零(不包括常数项)的假设检验。如果F 统计量超过了临界值,那么至少有一个系数可能不为零。

)

1(--=

k n RSS k

ESS F

这里,k 为解释变量的个数。本例F 统计量的值为46.80275。显著性水平为0.05的临界值为@qfdist(0.95,1,21)=4.3248<46.80275,故模型中的解释变量城市失业率对被解释变量劳动参与率有显著影响。

F 统计量的概率值(Prob.(F-statistic)):类似于T 统计量的概率值,表示F 统计量的边际显著性水平,F 统计量值越大,概率值越小,当概率值小于给定的显著性水平时,拒绝所有系数都为零的原假设。本例概率值为0.000001=1-@cfdist(46.80275,1,21)=1-0.999999,小于0.05的显著性水平。 因变量样本均值(Mean dependent var ):n Y Y i ∑=,本例因变量clfpr 的样本均值为65.89565。

因变量样本标准差(S.D. dependent var ):本例因变量clfpr 的样本标准差为1.168713,计算公式如下

∑--=

2

)(1

1..Y Y n D S i

赤池信息准则(Akaike info criterion ):赤池信息准则简记为AIC,计算公式为[2]205

n k n RSS Log AIC /)1(2)(++=

式中,Log 表示自然对数,k 表示解释变量的个数,不包括常数项。AIC 被用来检验回归模型中是否应该添加一个新的解释变量,或者为时间序列模型中滞后项数的选择提供指导,添加一个新变量在提高了拟合优度的同时,也降低了自由度和增加了方程的复杂性,AIC 小者为优。2(k+1)/n 被称为惩罚因子。 施瓦兹准则(Schwarz Criterion ):

)(1

)(n Log n

k n RSS Log SC ++

= 施瓦兹准则与AIC 类似,它们具有基本相同的解释。 汉南-奎因准则(Hannan-Quinn criter.):

))((2)(n Log Log n

k

n RSS Log HQ +=

比较而言,施瓦兹准则的惩罚项比赤池信息准则更严厉,汉南-奎因准则对新增变量的惩罚介于两者之间(参考文献[3],p233)。HQ 准则仅仅用于二元选择模型、排序模型、审查回归模型和计数模型。

DW 统计量(Durbin-Watson stat.):用来对序列相关性进行检验。 5、在方程窗口点击View/Representations 按钮,出现图3-4

图3-4 回归结果报告

可以根据图3-4的最后一行或根据图3-3,并对系数保留两位小数,报告回归结果如下:

cunr clfpr 65.096.69^

-=

se= (0.094566) t= (-6.841253)

2

R =0.675529 n=23(1980-2002)

由上面的回归报告的t 统计量的值可知(也可直接观察t 统计量的概率值),经济形势对城市劳动参与率有显著影响,城市失业率每上升1个百分点,城市劳动参与率下降0.65个百分点,即受挫工人效应大于增加工人效应。

6、在方程窗口点击View/Actual,Fitted,Residual/ Actual,Fitted,Residual Table,或View/Actual,Fitted,Residual/ Actual,Fitted,Residual Graph,分别出现图3-5和图3-6。

图3-5 实际值、拟合值和残差表 图3-6 实际值、拟合值和残差图

7、在方程窗口点击View/Residual Tests/ Histogram-Normality Test ,出现图3-7。

图3-7 直方图与正态性检验

图3-7的左边是残差序列的直方图。右边是残差序列的描述性统计量,其中JB 统计量的值为2.04213<5.99=@qchisq(0.95,2),其中@qchisq(0.95,2)是自由度为2,显著性水平为0.05的卡方分布的单侧分位数;或者由最后一行的概率值1-@cchisq(2.043213,2)=0.360016>0.05,所以不能拒绝残差序列为正态分布的原假设。 8、在误差正态性假设下

^1β~))var(,(^

11ββN

)

(^

11

^

1βββse -~)1,0(N

但计算)(^1βse 时,需要知道总体标准差σ。在σ未知时,用回归标准误差^

σ替代时,上述分布不再是标准正态分布,而是t 分布,即

)

(^

11

^

1βββse -~)2(-n t

当显著性水平为α时,

αβββαα-=-<-<

--1))2()

()2((2^

11

^

12n t se n t P ,

或者

αβββββαα-=*-+<<*--1))()2()()2((^

12^11^1^1se n t se n t P

所以,1β的置信系数为α-1的置信区间为

)]()2(),()2([^

12^1^12^1ββββααse n t se n t *-+*--

Eviews 的操作步骤

①计算置信区间的上界,在命令窗口输入以下命令

Scalar CI_beta1_HIGH=eq1.@coefs(2)+(@qtdist(0.975,(eq1.@regobs-eq1.@ncoef)))*eq1.@stderrs(2)

并回车,双击工作文件窗口中的图标CI_beta1_HIGH ,可以看到在屏幕左下角的状态栏出现Scalar CI_beta1_HIGH=-0.4503. ②计算置信区间的下界,在命令窗口输入

Scalar CI_beta1_low=eq1.@coefs(2)-(@qtdist(0.975,(eq1.@regobs-eq1.@ncoef)))*eq1.@stderrs(2)

并回车,双击工作文件窗口中的图标CI_beta1_low ,可以看到在屏幕左下角的状态栏出现Scalar CI_beta1_low=-0.8436.

所以,回归系数置信度为0.95的置信区间为[-0.8436, -0.4503],该系数不包括零。通过计算回归系数在一定置信度下的置信区间,观察其是否包含零,是对系数进行显著性检验的另一种方法。

9、在问题4中,我们已经利用了1980-2002年的数据,对问题2中建立的回归方程进行了估计。现在为了预测,首先利用1980-1999年的数据对回归方程进行估计,然后利用估计的方程对2000-2002年的劳动参与率进行点估计和区间估计。 (1)点预测

打开Eviews 工作文件clfpr-cunr.wfl ,点击主菜单Quick/Equation Estimation,在Equation Specification 窗口输入 clfpr c cunr,将样本范围改变为1980-1999,点击确定。

在方程窗口的工具条中,点击Name ,在Name to identify object 窗口输

入eq2,点击确定。

在eq2窗口的工具条中选择Forecast ,在Forecast name 中输入clfprf,表示预测值序列;在s.e.(optional)中输入seclfprf,表示预测标准误;在Sample range to forecast 中输入2000-2002,点击确定。出现图3-8。

图3-8 城市劳动参与率在2000-2002年的预测值

表3-2 实际值与预测值

图3-9 城市劳动参与率的实际值与预测值

(2)区间预测

下面以2000年为例,2001与2002年的方法相同。 根据(3.9)式,为求预测区间,需要给出三个值:

①clfpr 在2000年的点预测值,这可由表3-2获得,即=2000clfprf 67.38931; ②点预测的标准差,可由seclfprf 序列获得,即=2000sec lfprf 0.751246; ③t 统计量的临界值)2(2-n t α,这里,05.0=α20=n ,在命令窗口输入

Scalar t=@qtdist(0.975,(eq2.@regobs-eq2.@ncoef))

可得t=2.10092204024。 这样就可以求得预测区间为:

[2000025.02000sec *)18(lfprf t clfprf -,2000025.02000sec *)18(lfprf t clfprf +] 即[65.8110,68.9676]。

注:也可通过公式(3.8)计算2000sec lfprf :

∑=--++=n

i i

f f x x

x x n

y se 1

22

^

^

)()(1

1)(σ

由方程EQ2窗口可观察到^

σ=0.685562

由序列的描述性统计量可知解释变量cunr 的均值为6.51,解释变量的离差平方和的计算可通过以下两个命令实现。 Genr cunrdevsq=(cunr-@mean(cunr))^2 scalar sumdevsq=@sum(cunrdevsq)

在工作文件目录窗口点击标量sumdevsq 图标,左下角显示41.778。 所以 2000sec lfprf 778.41)51.64(20

1

1685562.02-++

==0.751246 从以上预测标准差的计算可知,预测误差有两个来源:一是残差的不确定性,即公式(3-8)的第一项^

σ,本例为^

σ=0.685562;二是系数的不确定性,即公式(3-8)的第二项平方根,本例为1.09581。 六、作业

1、实际工资对人们工作意愿的影响

根据表3-1的1980-2002美国城市劳动力参与率与实际平均每小时国内工资数据,完成以下问题

(1)查阅文献资料和书籍,学习实际工资对劳动参与率的理论影响,据此建立一元线性回归模型;

(2)用Eviews 软件绘制ahe82与CLFPR 之间的散点图,观察两变量之间的线性关系;

(3)根据劳动经济学理论,对回归系数的符号进行预期并加以解释; (4)利用表3-1提供的数据,利用OLS 法估计所建立的回归方程; (5)在Word 文件中报告回归结果并对回归结果进行解释; (6)显示因变量的实际值、拟合值,残差表(残差图); (7)绘制回归残差的直方图,并对残差进行正态性检验; (8)计算回归系数置信度为0.95的置信区间,该区间包括零吗? 2、身高对体重的影响

表3-2 身高与体重

注:性别填写中,女=0,男=1,身高以厘米(cm )为单位,体重以公斤(kg )为单位。

根据表3-2的数据,完成以下问题

(1)以身高为横坐标、体重为纵坐标绘制身高与体重的散点图,观察两变量之间的线性关系;

(2)建立体重对身高的一元线性回归模型;

(3)用OLS 估计总体回归方程,并据以报告回归结果; (4)解释回归结果系数的含义;

(5)检验身高系数在0.05的水平下是否显著?

(6)求解身高系数置信度为0.95的置信区间,该置信区间是否包括零? (7)在0.05的显著性水平下,检验残差是否服从正态分布? 3、The capital asset pricing model (CAPM) can be written as

])([)(f m i f i R R E R R E -+=β (*) The first step in using the CAPM is to estimate the stock’s beta using the market model. The market model can be written as

it mt i i it R R μβα++= (**) Where it R is the excess return for security i at time t,mt R is the excess return on a proxy for the market portfolio at time t, and t μis an iid random disturbance term. The cofficient beta in this case is also the CAPM beta for security i. Suppose that you had estimated (**) and found that the estimated value of beta for a stock, ^

β was 1.147. The standard error associated with this coefficient SE(^

β) is estimated to be 0.0548.

(1)A city analyst has told you that this security closely follows the market, but that it is no more risky, on average, than the market. This can be tested by the null hypotheses that the value of beta is one. The model is estimated over 62 daily observations. Test this hypothesis against a one-sided alternative that the security is more risky than the market, at the 5% level. Write down the null and alternative hypothesis. What do you conclude? Are the analyst’s claims empirically verified?

(2)The analyst also tells you that shares in Chris Mining PLC have no

systematic risk, in other words that the returns on its shares are completely unrelated to movements in the market. The value of beta and its standard error are calculated to be 0.214 and 0.186, respectively. The model is estimated over 38 quarterly observations.

Write down the null and alternative hypotheses. Test this null hypothesis against a two-sided alternative.

(3)Form and interpret a 95% and a 99% confidence interval for beta using the figures given in question(1).

(4)Are hypotheses tested concerning the actual values of the coefficients

(i.e.β) or their estimated values (i.e.

^

) and why?

计量经济学 第三章、经典单方程计量经济学模型:多元线性回归模型

计量经济学第三章、经典单方程计量经济学模型:多元线性回归模型

第三章、经典单方程计量经济学模型:多元线性 回归模型 一、内容提要 本章将一元回归模型拓展到了多元回归模型,其基本的建模思想与建模方法与一元的情形相同。主要内容仍然包括模型的基本假定、模型的估计、模型的检验以及模型在预测方面的应用等方面。只不过为了多元建模的需要,在基本假设方面以及检验方面有所扩充。 本章仍重点介绍了多元线性回归模型的基本假设、估计方法以及检验程序。与一元回归分析相比,多元回归分析的基本假设中引入了多个解释变量间不存在(完全)多重共线性这一假设;在检验部分,一方面引入了修正的可决系数,另一方面引入了对多个解释变量是否对被解释变量有显著线性影响关系的联合性F检验,并讨论了F检验与拟合优度检验的内在联系。 本章的另一个重点是将线性回归模型拓展到非线性回归模型,主要学习非线性模型如何转化为线性回归模型的常见类型与方法。这里需要注

意各回归参数的具体经济含义。 本章第三个学习重点是关于模型的约束性检验问题,包括参数的线性约束与非线性约束检验。参数的线性约束检验包括对参数线性约束的检验、对模型增加或减少解释变量的检验以及参数的稳定性检验三方面的内容,其中参数稳定性检验又包括邹氏参数稳定性检验与邹氏预测检验两种类型的检验。检验都是以F检验为主要检验工具,以受约束模型与无约束模型是否有显著差异为检验基点。参数的非线性约束检验主要包括最大似然比检验、沃尔德检验与拉格朗日乘数检验。它们仍以估计无约束模型与受约束模型为基础,但以最大似然原理进行估计,且都适用于大样本情形,都以约束条件个数为自由度的2χ分布为检验统计量的分布特征。非线性约束检验中的拉格朗日乘数检验在后面的章节中多次使用。 二、典型例题分析 例1.某地区通过一个样本容量为722的调查数据得到劳动力受教育的一个回归方程为 . 10+ 36 + = - .0 .0 medu fedu sibs edu210 131 .0 094

计量经济学-一元线性回归预测模型-Eviews6

数学与统计学院实验报告 院(系):数学与统计学学院学号:姓名: 实验课程:计量经济学指导教师: 实验类型(验证性、演示性、综合性、设计性):综合性 实验时间:2017年 3 月 1 日 一、实验课题 一元线性回归预测模型 二、实验目的和意义 用回归模型预测木材剩余物 (1)用Eviews软件建立y关于x的回归方程,并对模型和参数做假设检验; (2)求y t的点预测和平均木材剩余物产出量E(y t)的置信区间预测。 (3)假设乌伊岭林业局2000年计划采伐木材20万m3,求木材剩余物的点预测值。 三、解题思路 1、录非结构型的数据; 2、进行描述性统计,列出回归模型;通过看t、f等统计量,检验回归模型是否正确 3、运用forecast进行内预测(1-16样本),可以得到yf的点预测;再运用[yf+se]、[yf-se]进行区间估计(运用excel操作) 4、将样本范围改到17个,令x=20,运用forecast进行外预测(17-17) 四、实验过程记录与结果

翠峦11.69 32.7 乌马河 6.8 17 美溪9.69 27.3 大丰7.99 21.5 南岔12.15 35.5 带岭 6.8 17 朗乡17.2 50 桃山9.5 30 双丰 5.52 13.8 2、用Eviews软件建立y关于x的回归方程,并对模型和参数做假设检验;

模型为:y=0.404280x-0.762928 通过上表t、f统计量的p值<0.05,以及残差图基本在两倍标准差的范围内波动,可以得出该模型通过原假设。 3、求yt的点预测和平均木材剩余物产出量E(yt)的置信区间预测。Yt的点估计:

第三章 一元线性回归模型

第三章 一元线性回归模型 一、预备知识 (一)相关概念 对于一个双变量总体),(i i x y ,若由基础理论,变量x 和变量y 之间存在因果关系,或x 的变异可用来解释y 的变异。为检验两变量间因果关系是否存在、度量自变量x 对因变量y 影响的强弱与显著性以及利用解释变量x 去预测因变量 y ,引入一元回归分析这一工具。 将给定i x 条件下i y 的均值 i i i x x y E 10)|(ββ+= (3.1) 定义为总体回归函数(Population Regression Function,PRF )。定义 )|(i i i x y E y -为误差项(error term ),记为i μ,即)|(i i i i x y E y -=μ,这样i i i i x y E y μ+=)|(,或 i i i x y μββ++=10 (3.2) (3.2)式称为总体回归模型或者随机总体回归函数。其中,x 称为解释变量(explanatory variable )或自变量(independent variable );y 称为被解释变量(explained variable )或因变量(dependent variable );误差项μ解释了因变量的变动中不能完全被自变量所解释的部分。误差项的构成包括以下四个部分: (1)未纳入模型变量的影响 (2)数据的测量误差 (3)基础理论方程具有与回归方程不同的函数形式,比如自变量与因变量之间可能是非线性关系 (4)纯随机和不可预料的事件。 在总体回归模型(3.2)中参数10,ββ是未知的,i μ是不可观察的,统计计量分析的目标之一就是估计模型的未知参数。给定一组随机样本 n i y x i i ,,2,1),,( =,对(3.1)式进行估计,若10,),|(ββi i x y E 的估计量分别记为^ 1^ 0^ ,,ββi y ,则定义3.3式为样本回归函数 i i x y ^ 1^ 0^ ββ+= (n i ,,2,1 =) (3.3) 注意,样本回归函数随着样本的不同而不同,也就是说^ 1^ 0,ββ是随机变量,它们的随机性是由于i y 的随机性(同一个i x 可能对应不同的i y )与x 的变异共同引起的。定义^ i i y y -为残差项(residual term ),记为i e ,即^ i i i y y e -=,这样 i i i e y y +=^ ,或 i i i e x y ++=^ 1^0ββ (n i ,,2,1 =) (3.4)

一元线性回归模型习题和答案解析

一元线性回归模型 一、单项选择题 1、变量之间的关系可以分为两大类__________。A A 函数关系与相关关系 B 线性相关关系和非线性相关关系 C 正相关关系和负相关关系 D 简单相关关系和复杂相关关系 2、相关关系是指__________。D A 变量间的非独立关系 B 变量间的因果关系 C 变量间的函数关系 D 变量间不确定性的依存关系 3、进行相关分析时的两个变量__________。A A 都是随机变量 B 都不是随机变量 C 一个是随机变量,一个不是随机变量 D 随机的或非随机都可以 4、表示x 和y 之间真实线性关系的是__________。C A 01???t t Y X ββ=+ B 01()t t E Y X ββ=+ C 01t t t Y X u ββ=++ D 01t t Y X ββ=+ 5、参数β的估计量?β 具备有效性是指__________。B A ?var ()=0β B ?var ()β为最小 C ?()0β β-= D ?()ββ-为最小 6、对于01??i i i Y X e ββ=++,以σ?表示估计标准误差,Y ?表示回归值,则__________。B A i i ??0Y Y 0σ∑ =时,(-)= B 2 i i ??0Y Y σ∑=时,(-)=0 C i i ??0Y Y σ∑=时,(-)为最小 D 2 i i ??0Y Y σ∑=时,(-)为最小 7、设样本回归模型为i 01i i ??Y =X +e ββ+,则普通最小二乘法确定的i ?β的公式中,错误的是__________。D A ()()()i i 1 2 i X X Y -Y ?X X β--∑∑= B ()i i i i 1 2 2 i i n X Y -X Y ?n X -X β∑∑∑∑∑= C i i 1 2 2 i X Y -nXY ?X -nX β∑∑ = D i i i i 1 2 x n X Y -X Y ?βσ ∑∑∑= 8、对于i 01i i ??Y =X +e ββ+,以?σ表示估计标准误差,r 表示相关系数,则有__________。D A ?0r=1σ =时, B ?0r=-1σ =时, C ?0r=0σ =时, D ?0r=1r=-1σ =时,或 9、产量(X ,台)与单位产品成本(Y ,元/台)之间的回归方程为?Y 356 1.5X -=,这说明__________。D

一元线性回归模型案例分析

一元线性回归模型案例分析 一、研究的目的要求 居民消费在社会经济的持续发展中有着重要的作用。居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。改革开放以来随着中国经济的快速发展,人民生活水平不断提高,居民的消费水平也不断增长。但是在看到这个整体趋势的同时,还应看到全国各地区经济发展速度不同,居民消费水平也有明显差异。例如,2002年全国城市居民家庭平均每人每年消费支出为6029.88元, 最低的黑龙江省仅为人均4462.08元,最高的上海市达人均10464元,上海是黑龙江的2.35倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,居民的收入水平、就业状况、零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我们研究的对象是各地区居民消费的差异。居民消费可分为城市居民消费和农村居民消费,由于各地区的城市与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城市居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。所以模型的被解释变量Y 选定为“城市居民每人每年的平均消费支出”。 因为研究的目的是各地区城市居民消费的差异,并不是城市居民消费在不同时间的变动,所以应选择同一时期各地区城市居民的消费支出来建立模型。因此建立的是2002年截面数据模型。 影响各地区城市居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。为了与“城市居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 从2002年《中国统计年鉴》中得到表2.5的数据: 表2.52002年中国各地区城市居民人均年消费支出和可支配收入

一元线性回归模型的置信区间与预测

§2.5 一元线性回归模型的置信区间与预测 多元线性回归模型的置信区间问题包括参数估计量的置信区间和被解释变量预测值的置信区间两个方面,在数理统计学中属于区间估计问题。所谓区间估计是研究用未知参数的点估计值(从一组样本观测值算得的)作为近似值的精确程度和误差范围,是一个必须回答的重要问题。 一、参数估计量的置信区间 在前面的课程中,我们已经知道,线性回归模型的参数估计量^ β是随机变量 i y 的函数,即:i i y k ∑=1 ?β,所以它也是随机变量。在多次重复抽样中,每次 的样本观测值不可能完全相同,所以得到的点估计值也不可能相同。现在我们用参数估计量的一个点估计值近似代表参数值,那么,二者的接近程度如何?以多大的概率达到该接近程度?这就要构造参数的一个区间,以点估计值为中心的一个区间(称为置信区间),该区间以一定的概率(称为置信水平)包含该参数。 即回答1β以何种置信水平位于() a a +-1 1?,?ββ之中,以及如何求得a 。 在变量的显著性检验中已经知道 ) 1(~^ ^ ---= k n t s t i i i βββ (2.5.1) 这就是说,如果给定置信水平α-1,从t 分布表中查得自由度为(n-k-1)的临界值2 αt ,那么t 值处在()2,ααt t -的概率是α-1。表示为 α αα-=<<-1)(2 2 t t t P 即

α ββαβα-=<-< -1)(2 ^ 2 ^ t s t P i i i α ββββαβα-=?+<

案例分析 一元线性回归模型

案例分析报告 (2014——2015学年第一学期) 课程名称:预测与决策 专业班级:电子商务1202 学号: 2204120202 学生姓名:陈维维 2014 年 11月 案例分析(一元线性回归模型) 我国城镇居民家庭人均消费支出预测 一、研究目的与要求 居民消费在社会经济的持续发展中有着重要的作用,居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。从理论角度讲,消费需求的具体内容主要体现在消费结构上,要增加居民消费,就要从研究居民消费结构入手,只有了解居民消费结构变化的趋势和规律,掌握消费需求的热点和发展方向,才能为消费者提供良好的政策环境,引导消费者合理扩大消费,才能促进产业结构调整与消费结构优化升级相协调,才能推动国民经济平稳、健康发展。例如,2008年全国城镇居民家庭平均每人每年消费支出为11242.85元,?最低的青海省仅为人均8192.56元,最高的上海市达人均19397.89元,上海是黑龙江的2.37倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定?

我研究的对象是各地区居民消费的差异。居民消费可分为城镇居民消费和农村居民消费,由于各地区的城镇与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城镇居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。 所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。 因为研究的目的是各地区城镇居民消费的差异,并不是城镇居民消费在不同时间的变动,所以应选择同一时期各地区城镇居民的消费支出来建立模型。因此建立的是2008年截面数据模型。影响各地区城镇居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。 为了与“城镇居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 以下是2008年各地区城镇居民人均年消费支出和可支配收入表

一元线性回归分析实验报告

一元线性回归在公司加班制度中的应用 院(系): 专业班级: 学号姓名: 指导老师: 成绩: 完成时间:

一元线性回归在公司加班制度中的应用 一、实验目的 掌握一元线性回归分析的基本思想和操作,可以读懂分析结果,并写出回归方程,对回归方程进行方差分析、显著性检验等的各种统计检验 二、实验环境 SPSS21.0 windows10.0 三、实验题目 一家保险公司十分关心其总公司营业部加班的程度,决定认真调查一下现状。经10周时间,收集了每周加班数据和签发的新保单数目,x 为每周签发的新保单数目,y 为每周加班时间(小时),数据如表所示 y 3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0 2. x 与y 之间大致呈线性关系? 3. 用最小二乘法估计求出回归方程。 4. 求出回归标准误差σ∧ 。 5. 给出0 β∧与1 β∧ 的置信度95%的区间估计。 6. 计算x 与y 的决定系数。 7. 对回归方程作方差分析。 8. 作回归系数1 β∧ 的显著性检验。 9. 作回归系数的显著性检验。 10.对回归方程做残差图并作相应的分析。

11.该公司预测下一周签发新保单01000 x=张,需要的加班时间是多少? 12.给出0y的置信度为95%的精确预测区间。 13.给出 () E y的置信度为95%的区间估计。 四、实验过程及分析 1.画散点图 如图是以每周加班时间为纵坐标,每周签发的新保单为横坐标绘制的散点图,从图中可以看出,数据均匀分布在对角线的两侧,说明x和y之间线性关系良好。 2.最小二乘估计求回归方程

用SPSS 求得回归方程的系数01,ββ分别为0.118,0.004,故我们可以写出其回归方程如下: 0.1180.004y x =+ 3.求回归标准误差σ∧ 由方差分析表可以得到回归标准误差:SSE=1.843 故回归标准误差: 2= 2SSE n σ∧-,2σ∧=0.48。 4.给出回归系数的置信度为95%的置信区间估计。 由回归系数显著性检验表可以看出,当置信度为95%时:

一元线性回归模型与多元线性回归模型对比

参数估计量的性质 线性性、无偏性、有效性 线性性、无偏性、有效性 参数估计量的概率分布 ) , (~?), (~?22 2002211σββσββ∑∑∑i i i x n X N x N --- 样本容量问题 ---- 样本容量n 必须不少于模型中解释变量的个数(包括常数项), 即1+≥k n 才能得到参数估计值,8-≥k n 时t 分布才比较稳定,能够进行变量的显著性检验,一般认为30≥n 活着至少 ()13+≥k n 时才能满足模型估计要求。如果样本量过小,则只 依靠样本信息就是无法完成估计的,需要用其她方法去估计。 统计检验 一元线性回归模型 多元线性回归模型 拟合优度检验 总离差平方与的分解 TSS=ESS+RSS TSS ESS R = 2,[]1,02 ∈R 越接近于1,拟合优度越高。 总离差平方与的分解 TSS=ESS+RSS TSS RSS TSS ESS R -== 12,(即总平方与中回归平方与的比例) []1,02∈R 对于同一个模型,2R 越接近于1,拟合优度越高。 ) 1/() 1(12---- =n TSS k n RSS R (调整的思路就是残差平方与 RSS 与总平方与 TSS 各自除以它们的自由度) 为什么要对2 R 进行调整?解释变量个数越多,它们对 Y 所能解释的部分越 大(即回归平方与部分越大),残差平方与部分越小,2R 越高,由增加解释变量引起的 2R 的增大与拟合好坏无关,因此在多元回归模型之间比较拟合优度, 2R 就不就是一 个合适的指标,必须加以调整。 方程总体显著性检验 ------ 目的:对模型中被解释变量与解释变量之间的线性关系在总体上就是否成立做出判断。 原假设 备择假设: 统计量的构造: 判断步骤:①计算F 统计量的值 ②给定显著性水平,查F 分布的临界值表获得 )

第三章一元线性回归分析

第三章 一元线性回归 一元线性回归分析的对象是两个变量的单向因果关系,模型的核心是两变量线性函数,分析方法是回归分析。一元线性回归是经典计量经济分析的基础。 第一节 一元线性回归模型 一、变量间的统计关系 社会经济现象之间的相互联系和制约是社会经济的普遍规律。在一定的条件下,一些因素推动或制约另外一些与之联系的因素发生变化。这种状况表明在经济现象的内部和外部联系中存在着一定的因果关系,人们往往利用这种因果关系来制定有关的经济政策,以指导、控制社会经济活动的发展。而认识和掌握客观经济规律就要探求经济现象间经济变量的变化规律。 互有联系的经济变量之间的紧密程度各不相同,一种极端的情况是一个变量能完全决 定另一个变量的变化。比如:工业企业的原材料消耗金额用y 表示,生产量用1x 表示,单位产量消耗用2x 表示,原材料价格用3x 表示,则有:123y x x x =。这里,y 与123,,x x x ,是一种确定的函数关系。 然而,现实世界中,还有不少情况是两个变量之间有着密切的联系,但它们并没有密切到由一个可以完全确定另一个的程度。 例如:某种高档费品的销售量与城镇居民的收入;粮食产量与施肥量之间的关系;储蓄额与居民的收入密切相关。 从图示上可以大致看出这两种关系的区别:一种是对应点完全落到一条函数曲线上;另一种是并不完全落在曲线上,而有的点在曲线上,有的点在曲线的两边。对于后者这种不能用精确的函数关系来描述的关系正是计量经济学研究的重要内容。 二、一元线性回归模型 1.模型的建立 一个例子,见教材66页: 总体回归模型:01i i i Y X ββε=++ 理解:(1)误差的随机性使得Y 和X 之间呈现一种随机的因果关系;(2)Y i 的取值由两部分组成,一类是系统内影响,一类是系统外影响。 样本回归直线:01i i Y X ββ=+ 样本回归模型:01i i i Y X e ββ=++ 2.模型的假设 (1) 误差项i ε的数学期望无论I 取什么值都是零。 (2) 误差项i ε的方差为常数2 σ (3) 误差项i ε对于I 的取值不同,不相关。 (4) 解释变量X 是确定性的变量,而非随机变量。 (5) 误差项i ε服从正态分布。

第三章-K元线性回归模型

第三章 K 元线性回归模型 一、填空题 1. 对于模型i ik k i i i u X X X Y +++++=ββββΛ22110,i=1,2,…,n ,一般经验认为,满足模型估计的基本要求的样本容量为_ _ 2. 对于总体线性回归模型i i i i i u X X X Y ++++=3322110ββββ,运用最小二乘法欲得到参数估计量,所要求的最小样本容量n 应满足 或至少_________。 3. 多元线性计量经济学模型的矩阵形式 ,对应的样本线性回归模型的矩阵形式 ,模型的最小二乘参数估计量 及其方差估计量 。 4. 总平方和可以分解为 回归平方和 和 残差平方和 ,可决系数为 。 5. 多元回归方程中每个解释变量的系数β(偏回归系数),指解释变量变化一个单位引起的被解释变量平均变化 β 个单位。 6. 线性模型的含义,就变量而言,指的是回归模型变量的 ;就参数而言,指的是回归模型中参数的 。通常线性回归模型指的是 。 二、问答题 1. 什么是多元回归模型?它与一元、二元回归模型有何区别? 2. 极大似然法(maximum likehood )的原理是什么? 3. 什么是拟合优度(R 2)检验?有什么作用? 指对样本回归直线与样本观测值之间的拟合程度的检验。 4. 可决系数R 2低的可能的原因是什么? 5. 多元回归的判断系数R 2具有什么性质?运用R 2时应注意什么问题? 6. 多元线性回归模型的基本假设是什么?试说明在证明最小二乘估计量的无偏性和有 效性的过程中,哪些基本假设起了作用? 7. 说明区间估计的含义。 三、实践题 1.下表给出三变量模型的回归结果: 方差来源 平方和(SS ) 自由度(d.f.) 均方差(MSS) 回归平方和(ESS) 65965 3 21988.33 残差平方和(RSS) 77 11 7 总平方和(TSS) 66042 14 4717.48

一元回归 案例分析

一元回归案例分析 第二章案例分析 一、研究的目的要求 居民消费在社会经济的持续发展中有着重要的作用。居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。改革开放以来随着中国经济的快速发展,人民生活水平不断提高,居民的消费水平也不断增长。但是在看到这个整体趋势的同时,还应看到全国各地区经济发展速度不同,居民消费水平也有明显差异。例如,2002年全国城市居民家庭平均每人每年消费支出为6029.88元, 最低的黑龙江省仅为人均4462.08元,最高的上海市达人均10464元,上海是黑龙江的2.35倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,居民的收入水平、就业状况、零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我们研究的对象是各地区居民消费的差异。居民消费可分为城市居民消费和农村居民消费,由于各地区的城市与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城市居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。所以模型的被解释变量Y选定为“城市居民每人每年的平均消费支出”。

因为研究的目的是各地区城市居民消费的差异,并不是城市居民消费在不同时间的变动,所以应选择同一时期各地区城市居民的消费支出来建立模型。因此建立的是2002年截面数据模型。 影响各地区城市居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。为了与“城市居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 从2002年《中国统计年鉴》中得到表2.5的数据: 表2.5 2002年中国各地区城市居民人均年消费支出和可支配收入地区城市居民家庭平均每人每年消费支出(元) 城市居民人均年可支配收入(元) Y X 10284.60 12463.92 北京 7191.96 9337.56 天津 5069.28 6679.68 河北 4710.96 5234.35 山西 4859.88 6051.06 内蒙古 5342.64 6524.52 辽宁 4973.88 6260.16 吉林 4462.08 6100.56 黑龙江 10464.00 13249.80 上海

案例分析一元线性回归模型

案例分析一元线性回归 模型 Revised as of 23 November 2020

案例分析报告 (2014——2015学年第一学期) 课程名称:预测与决策 专业班级:电子商务1202 学号: 02 学生姓名:陈维维 2014 年 11月 案例分析(一元线性回归模型) 我国城镇居民家庭人均消费支出预测 一、研究目的与要求 居民消费在社会经济的持续发展中有着重要的作用,居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。从理论角度讲,消费需求的具体内容主要体现在消费结构上,要增加居民消费,就要从研究居民消费结构入手,只有了解居民消费结构变化的趋势和规律,掌握消费需求的热点和发展方向,才能为消费者提供良好的政策环境,引导消费者合理扩大消费,才能促进产业结构调整与消费结构优化升级相协调,才能推动国民经济平稳、健康发展。例如,2008年全国城镇居民家庭平均每人每年消费支出为元,最低的青海省仅为人均元,最高的上海市达人均元,上海是黑龙江的倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定

我研究的对象是各地区居民消费的差异。居民消费可分为城镇居民消费和农村居民消费,由于各地区的城镇与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城镇居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。 所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。 因为研究的目的是各地区城镇居民消费的差异,并不是城镇居民消费在不同时间的变动,所以应选择同一时期各地区城镇居民的消费支出来建立模型。因此建立的是2008年截面数据模型。影响各地区城镇居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。 为了与“城镇居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 以下是2008年各地区城镇居民人均年消费支出和可支配收入表

第三章 多元线性回归模型(Stata)

一、邹式检验(突变点检验、稳定性检验) 1.突变点检验 1985—2002年中国家用汽车拥有量(t y ,万辆)与城镇居民家庭人均可支配收入(t x ,元),数据见表6.1。 表6.1 中国家用汽车拥有量(t y )与城镇居民家庭人均可支配收入(t x )数据 年份 t y (万辆) t x (元) 年份 t y (万辆) t x (元) 1985 28.49 739.1 1994 205.42 3496.2 1986 34.71 899.6 1995 249.96 4283 1987 42.29 1002.2 1996 289.67 4838.9 1988 60.42 1181.4 1997 358.36 5160.3 1989 73.12 1375.7 1998 423.65 5425.1 1990 81.62 1510.2 1999 533.88 5854 1991 96.04 1700.6 2000 625.33 6280 1992 118.2 2026.6 2001 770.78 6859.6 1993 155.77 2577.4 2002 968.98 7702.8 下图是关于t y 和t x 的散点图: 从上图可以看出,1996年是一个突变点,当城镇居民家庭人均可支配收入突破

4838.9元之后,城镇居民家庭购买家用汽车的能力大大提高。现在用邹突变点检验法检验1996年是不是一个突变点。 H0:两个字样本(1985—1995年,1996—2002年)相对应的模型回归参数相等H1:备择假设是两个子样本对应的回归参数不等。 在1985—2002年样本范围内做回归。 在回归结果中作如下步骤(邹氏检验): 1、Chow 模型稳定性检验(lrtest) 用似然比作chow检验,chow检验的零假设:无结构变化,小概率发生结果变化 * 估计前阶段模型 * 估计后阶段模型

第二章一元线性回归模型(Stata)

1. 中国居民人均消费模型 从总体上考察中国居民收入与消费支出的关系。表2.1给出了1990年不变价格测算的中国人均国内生产总值(GDPP )与以居民消费价格指数(1990年为100)所见的人均居民消费支出(CONSP )两组数据。 表2.1 中国居民人均消费支出与人均GDP (单位:元/人) 年份 CONSP GDPP 年份 CONSP GDPP 1978 395.8000 675.1000 1990 797.1000 1602.300 1979 437.0000 716.9000 1991 861.4000 1727.200 1980 464.1000 763.7000 1992 966.6000 1949.800 1981 501.9000 792.4000 1993 1048.600 2187.900 1982 533.5000 851.1000 1994 1108.700 2436.100 1983 572.8000 931.4000 1995 1213.100 2663.700 1984 635.6000 1059.200 1996 1322.800 2889.100 1985 716.0000 1185.200 1997 1380.900 3111.900 1986 746.5000 1269.600 1998 1460.600 3323.100 1987 788.3000 1393.600 1999 1564.400 3529.300 1988 836.4000 1527.000 2000 1690.800 3789.700 1989 779.7000 1565.900 1) 建立模型,并分析结果。 2)输出结果为: 对应的模型表达式为: 201.1070.3862CONSP GDPP =+ (13.51) (53.47) 2 0.9927,2859.23,0.55R F DW === 从回归估计的结果可以看出,拟合度较好,截距项和斜率项系数均通过了t 检验。

一元线性回归模型典型例题分析

第二章 一元线性回归模型典型例题分析 例1、令kids 表示一名妇女生育孩子的数目,educ 表示该妇女接受过教育的年数。生育率对教育年数的简单回归模型为 μββ++=educ kids 10 (1)随机扰动项μ包含什么样的因素?它们可能与教育水平相关吗? (2)上述简单回归分析能够揭示教育对生育率在其他条件不变下的影响吗?请解释。 例2.已知回归模型μβα++=N E ,式中E 为某类公司一名新员工的起始薪金(元),N 为所受教育水平(年)。随机扰动项μ的分布未知,其他所有假设都满足。如果被解释变量新员工起始薪金的计量单位由元改为100元,估计的截距项与斜率项有无变化?如果解释变量所受教育水平的度量单位由年改为月,估计的截距项与斜率项有无变化? 例3.对于人均存款与人均收入之间的关系式t t t Y S μβα++=使用美国36年的年度数据得如下估计模型,括号内为标准差: ) 011.0() 105.151(067.0105.384?t t Y S += 2R =0.538 023.199?=σ (1)β的经济解释是什么? (2)α和β的符号是什么?为什么?实际的符号与你的直觉一致吗?如果有冲突的话,你可以给出可能的原因吗? (3)对于拟合优度你有什么看法吗? (4)检验统计值? 例4.下列方程哪些是正确的?哪些是错误的?为什么? ⑴ y x t n t t =+=αβ12,,, ⑵ y x t n t t t =++=αβμ12,,, ⑶ y x t n t t t =++= ,,,αβμ12

⑷ ,,,y x t n t t t =++=αβμ12 ⑸ y x t n t t =+= ,,,αβ12 ⑹ ,,,y x t n t t =+=αβ12 ⑺ y x t n t t t =++= ,,,α βμ12 ⑻ ,,,y x t n t t t =++=αβμ12 其中带“^”者表示“估计值”。 例5.对于过原点回归模型i i i u X Y +=1β ,试证明 ∑= ∧ 2 21)(i u X Var σβ 例6、对没有截距项的一元回归模型 i i i X Y μβ+=1 称之为过原点回归(regression through the origin )。试证明 (1)如果通过相应的样本回归模型可得到通常的正规方程组 ∑∑==0 0i i i X e e 则可以得到1β的两个不同的估计值: X Y =1~β, ()()∑∑=2 1 ?i i i X Y X β。 (2)在基本假设0)(i =μE 下,1~ β与1?β均为无偏估计量。 (3)拟合线X Y 1??β=通常不会经过均值点),(Y X ,但拟合线X Y 1 ~~β=则相反。 (4)只有1?β是1β的OLS 估计量。 解: (1)由第一个正规方程 0=∑t e 得 0)~(1=-∑t t X Y β 或 ∑∑=t t X Y 1~ β

案例分析(一元线性回归模型)

案例分析报告(2014——2015学年第一学期) 课程名称:预测与决策 专业班级:电子商务1202 学号: 2204120202 学生姓名:陈维维 2014 年 11月

案例分析(一元线性回归模型) 我国城镇居民家庭人均消费支出预测 一、研究目的与要求 居民消费在社会经济的持续发展中有着重要的作用,居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。从理论角度讲,消费需求的具体内容主要体现在消费结构上,要增加居民消费,就要从研究居民消费结构入手,只有了解居民消费结构变化的趋势和规律,掌握消费需求的热点和发展方向,才能为消费者提供良好的政策环境,引导消费者合理扩大消费,才能促进产业结构调整与消费结构优化升级相协调,才能推动国民经济平稳、健康发展。例如,2008年全国城镇居民家庭平均每人每年消费支出为11242.85元,最低的青海省仅为人均8192.56元,最高的上海市达人均19397.89元,上海是黑龙江的2.37倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我研究的对象是各地区居民消费的差异。居民消费可分为城

镇居民消费和农村居民消费,由于各地区的城镇与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城镇居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。 所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。 因为研究的目的是各地区城镇居民消费的差异,并不是城镇居民消费在不同时间的变动,所以应选择同一时期各地区城镇居民的消费支出来建立模型。因此建立的是2008年截面数据模型。影响各地区城镇居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。 为了与“城镇居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 以下是2008年各地区城镇居民人均年消费支出和可支配收入表

第三章-一元线性回归

第三章 一元线性回归 第一部分 学习指导 一、本章学习目的与要求 1、掌握一元线性回归的经典假设; 2、掌握一元线性回归的最小二乘法参数估计的计算公式、性质和应用; 3、理解拟合优度指标:决定系数R 2 的含义和作用; 4、掌握解释变量X 和被解释变量Y 之间线性关系检验,回归参数0β和1β的显著性检验 5、了解利用回归方程进行预测的方法。 二、本章内容提要 (一)一元线性回归模型的假设条件 (1)E (i ε)=0 (i =1,2,……,n ),即随机误差项分布的均值为零。 (2)Var (i ε)=2σ (i =1,2, ……,n ),即随机误差项方差恒定,称为同方差。 (3)C o v (i ε,j ε)=0,(任意i ≠j ,i ,j =1,2, ……,n ),即随机误差项之间互不 相关。 (4)解释变量X 是非随机的,换句话说,在重复抽样下,X 的取值是确定不变的。 (5)i ε~N (0,2σ),即随机误差项服从均值为0,方差为2σ的正态分布。 前四个假定就是著名的高斯—马尔科夫假定或者称为回归分析的经典假定。 (二)一元线性回归最小二乘法估计参数的计算公式及性质 1、一元线性回归最小二乘法估计参数的计算公式为: ()()()112101???n i i xy i n xx i i x x y y S S x x y x βββ==? --??==??-??=-??∑∑ 2、一元线性回归最小二乘法估计参数的性质与估计量的性质 (1)残差的总和等于0,即 ∑=n i i 1? ε=0。 (2)残差的平方和最小,即 ∑=n i i 1 2? ε最小。 (3)被解释变量Y 的实际观测值i y 之和等于其拟合值?i y 之和,从而i y 的均值y 与i y ?的均值y ?也相等。 (4)残差?i ε 与?i y 互不相关,即1 ??0n i i i y ε==∑。 (5)回归直线通过解释变量X 和被解释变量Y 的均值点(,)x y 。 3、OLS 法得到的估计量的性质 (1) 线性性,即参数估计量是关于被解释变量Y 取值的线性函数。 (2)无偏性,即参数估计量的均值等于参数本身,也就是E (1?β)=1 β,E (0?β)=0β (3)方差最小性,即在参数的所有线性无偏估计中,OLS 估计量是方差最小的。该性质也称为方差有效性。 由(1)、(2)、(3)条性质知,根据最小二乘法得到的参数估计量是最优线性无偏估计量(Best Linear Unbias Estimator ),简称BLUE 估计量。 (三)拟合优度指标:决定系数R 2 1、总离差平方和的分解(TSS )

相关文档
最新文档