第三章 一元线性回归模型

第三章 一元线性回归模型
第三章 一元线性回归模型

第三章一元线性回归模型

第一节一元线性回归模型及其基本假设

一元线性回归模型

第二章回归分析的基本思想指出,由于总体实际上是未知的,必须根据样本回归模型估计总体回归模型,回归分析的目的就是尽量使得样本回归模型接近总体回归模型,那么采取什么方法估计样本回归模型才使得估计出的样本回归模型是总体回归模型的一个较好估计值呢?这里包括两个问题:一是采用什么方法估计样本回归模型;二是怎样验证估计出的样本回归模型是总体回归模型的一个较好估计值。这些将在接下来的内容中讲到。这一章介绍最简单的一元线性回归模型,下一章再扩展到多元线性回归模型。

一元线性回归模型及其基本假设

一、一元线性回归模型的定义

一元线性回归模型是最简单的计量经济学模型,在该一元模型中,仅仅只含有一个自变

量,其一般形式为:

yi = β0 + β1xi + μi(3.1.1)

其中yi是因变量,xi是自变量,β0、β1是回归参数,μi是随机项。由于式(3.1.1)

是对总体而言的,也称为总体回归模型。

随机项μ代表未被考虑到模型中而又对被解释变量y有影响的所有因素产生的总效应。

二、一元线性回归模型的基本假设

由于模型中随机项的存在使得参数β0和β1的数值不可能严格计算出来,而只能进行估计,在计量经济学中,有很多方法可以估计出这些参数值,但采用什么方法能够尽可能准确地估计出这些参数值,取决于随机项μ和自变量x的性质。因此,对随机项μ和自变量x的统计假定以及检验这些假定是否满足的方法,在计量经济学中占有重要的地位。

估计方法中用得最多的是普通最小二乘法(Ordinary Least Squares),同样为了保证利用普通最小二乘法估计出的参数估计量具有良好的性质,也需要对模型的随机项μ和自变量x 提出若干种假设。当模型中的随机项μ和自变量x满足这些假设时,普通最小二乘法就是适合的估计方法;当模型中的随机项μ和自变量x不满足这些假设时,普通最小二乘法就不是适合的方法,这时需要利用其他的方法来估计模型。所以,严格来说,这些假设并不是针对计量经济学模型的,而是针对普通最小二乘法的。

要求随机项μ和自变量x满足的统计假定主要有五个,这些假定称为线性回归模型的经

典假定。

假定1:每个随机项μi(i = 1,2,3,…,n)的期望值都为0,即

E(μi/x)= 0 i = 1,2,3,…,n

E(μi/x)= 0的含义是样本中第i次观测到的随机干扰项的期望值,不是任何一次观测所观测到的自变量的函数。这就意味着自变量不能为随机项提供有用的信息,自变量数据的生成过程独立于模型,即独立于生成随机项μi的过程。

假定2:每个随机项μi(i = 1,2,3,…,n)的方差均为同一个有限常数,都等于σ2,

V ar(μi/x)= σ2 = 常数i = 1,2,3,…,n

随机项方差都相等的假设也称为同方差(Homoscedasticity)或等方差假定。

假定3:每个随机项μi(i = 1,2,3,…,n)都是服从正态分布(Normally Distributed)

的实随机变量。

如果结合假定1、假定2和假定3,则有

μi~N(0,σ2)i = 1,2,3,…,n

即每个随机项μi(i = 1,2,3,…,n)都是服从期望值为0,方差为常数σ2的正态

分布。

假定4:与自变量不同观察值xi相对应的随机项互不相关,也称为随机项非自相关

(Nonautocorrelation)假定,即

COV(μi,μj)= 0 i≠j i,j = 1,2,3,…,n

假定5:自变量是外生的,随机项与任一解释变量都不相关,即

COV(μi,xj)= 0 i,j = 1,2,3,…,n

以上五个假定也称为高斯-马尔柯夫(Gauss-Markov)假定,满足这些假定的线性回归

模型也称为经典线性回归模型。

除以上五个基本假定外,还有两个暗含假定,即进行回归分析时假设模型已经满足的假

定。

假定6:随着样本容量的无限增加,解释变量x的样本方差趋于一个有限常数Ω,即

■S2 = ■■■(xi - x)2→Ω

假定7:所要估计的计量经济学模型是正确设定的。

假定6的目的主要是防止出现伪回归问题(Spurious Regression Problem)。即当解释变量是时间序列数据,而且是持续上升或下降时,不但会使得大样本统计推断变得无效,而且容易产生伪回归问题。所谓伪回归问题,是指当两列时间序列数据出现一致的变化趋势时,即使这两列数据间没有任何的经济关系,在进行回归分析时也会表现出较高的拟合优度。

假定7是要求模型设定正确,不存在设定偏误(Specification Error)。

由于μi服从假定3所示的正态分布,而从式(3.1.1)可知,yi是μi的线性函数,所

以,yi也服从正态分布。

根据假定1以及式(3.1.1)可以得到yi的期望值为:

E(yi)= E(β0 + β1xi + μi)= β0 + β1xi(3.1.2)

根据假定2以及式(3.1.1)可以得到yi的方差为:

Var(yi)= Var(β0 + β1xi + μi)= V ar(μi)= σ2(3.1.3)

所以,yi服从期望值为β0 + β1xi,方差为常数σ2的正态分布:

yi~N(β0 + β1xi,σ2)(3.1.4)

yi的分布在对参数以及因变量进行区间估计时会用到。

虽然μi的方差σ2是一常数,但实际上σ2是未知的,由于σ2是模型中的一个重要参数,在下面估计回归参数β0和β1时,也会给出σ2的一个估计量。

第二节回归参数的普通最小二乘估计

回归参数的普通最小二乘估计

一、普通最小二乘原理

已知一组样本观测值(xi,yi)(i = 1,2,3,…,n),回归分析的目的就是使依据这些样本观测值估计出的样本回归模型能尽可能地接近总体回归模型,但由于总体回归模型实际上是不知道的,那么怎样使得估计出的样本回归模型是总体回归模型的最好估计呢?这就要求被解释变量的估计值■i(样本回归模型的被解释变量)与实际观测值yi(总体回归模型的被解释变量)尽可能接近,考虑到样本残差εi = yi - ■i,因此,应该要求样本残差尽可能接近0,考虑到总共有n个样本观测值,且不同样本观测值的样本残差有正有负,见图3-1。

因此,应要求\"总体样本残差\"尽可能小,即

Q =■ε2■(3.2.1)

达到最小,这就是普通最小二乘原理。

二、回归参数的普通最小二乘估计

将样本残差的表达式代入式(3.2.1)有:

Q =■ε2■=■(yi - ■i)2 =■[yi - (■0 + ■1xi)]2(3.2.2)因此,普通最小二乘原理要求在给定的样本观测值下,选择适当的■0和■1,使得εi 对所有的i的平方和达到最小。这种估计回归参数的方法称为普通最小二乘法(Ordinary Least Squares,OLS),采用OLS估计出来的参数称为普通最小二乘估计量(Ordinary Least

Squares Estimator,OLSE)。

从式(3.2.2)可以看到,Q是■0和■1的二次非负函数,根据二次非负函数的特征可以知道,Q的极小值总是存在的。因此,根据微积分学的运算知道,当Q分别对■0和■1

的一阶偏导数为0时,Q达到最小,即

■= -2■[yi - (■0 + ■1xi)]= 0■= -2■[yi - (■0 + ■1xi)]xi = 0(3.2.3)

由于εi = yi - ■i = yi - (■0 + ■1xi)

所以,式(3.2.3)可以写成:

■εi = 0■εixi = 0(3.2.4)

式(3.2.4)是以■0和■1为未知数的方程组,简称为正规方程组。

解正规方程(3.2.3),得■0和■1估计量的表达式为:

■0 = ■- ■1■■1 = ■(3.2.5)

式(3.2.5)中,■表示yi(i = 1,2,3,…,n)的均值,■表示xi(i = 1,2,3,…,

n)的均值,即

■= ■■yi■= ■■xi

而■i、■i分别表示xi和yi的中心化变量,即

■i = xi - ■■i = yi - ■

在上面推导■的过程中,用到了中心化变量的一些性质:

①■■i = 0;■■i = 0

②■■i■i =■■iyi =■xi■i

从下面开始,为了简化,求和符号都没有带上起始和截止期,除了特别标明,直接用■

xi表示■xi。

普通最小二乘估计量■0、■1具备以下一些性质:

①用普通最小二乘估计法估计出的样本回归线经过样本均值点

由式(3.2.5)■0的表达式■0 = ■- ■1■变形得:

■= ■0 + ■1■

②样本残差和为0,即正规方程组(3.2.4)的第一个表达式

■εi = 0

③样本残差与解释变量的积的和为0,即正规方程组(3.2.4)的第二个表达式

■εixi = 0

可以利用性质②和性质③检验最小二乘法估计结果是否正确。

④样本残差与被解释变量的估计量的积的和也为0,即

■εi■i = 0

第三节参数最小二乘估计量的统计性质

参数最小二乘估计量的统计性质

对于估计出的样本回归模型的参数,需要考虑估计量的好坏,即能否作为总体回归模型参数的很好近似。实际上,由于所选估计方法的不同,再加上所抽取样本的随机性,使得估计出的样本回归模型的参数都和总体回归模型参数的真值存在差距。为了对参数估计量的好坏进行判断,必须对估计量的统计性质进行检验。

衡量估计量好坏的统计指标依据样本容量的大小分为小样本性质(Small Sample Proper-ties)和大样本性质(Large Sample Properties)或渐进性质(Asymptotic Properties)。小样本性质有:①线性,即它是否是另一变量的线性函数;②无偏性,即它的期望值是否等于总体的真值;③最小方差性或有效性,即在所有的线性无偏估计量中,它的方差是否最小。大样本性质则包括:①渐近无偏性,即当样本容量趋于无穷大时,它的均值趋于总体真值;②一致性,即当样本容量趋于无穷大时,它是否依概率收敛于总体真值;

③渐进有效性,即当样本容量趋于无穷大时,在所有的一致估计量中,它的方差最小。

如果一个估计量具备线性、无偏性以及最小方差性,则称这个估计量是最优线性无偏估计量(Best Linear Unbiased Estimator,BLUE)。具备最优线性无偏估计量性质的估计量的性质不依样本容量大小的改变而改变。但是,在小样本容量下,有时估计量并不具备最优线性无偏估计量的性质,这时就可以扩大样本容量来考察参数估计量的大样本

性质。

下面我们分别讨论一元线性回归模型参数估计量的线性、无偏性以及最小方差性。

一、线性

所谓线性是指■0和■1是yi或μi的线性函数。

由式(3.2.5)中■1的表达式可以得到

■1 = ■= ■=■kiyi(3.3.1)

其中,ki = ■

式(3.3.1)表明■1是yi的线性函数。

同样,由式(3.2.5)中的■0表达式有

■0 = ■- ■1■= ■■yi -■ki■yi =■■yi(3.3.2)

所以,■0也是yi的线性函数。

现在证明■1、■0也是随机项μi的线性函数。

由式(3.3.1)可以得到:

■1 =■kiyi =■ki(β0 + β1xi + μi)= β0■ki + β1■kixi +■kiμi

由于

■ki = ■= ■= 0

■kixi = ■= ■= 1

所以,■1 = β1 +■kiμi(3.3.3)

即■1是随机项μi的线性函数。

由式(3.3.2)可得:

■0 =■■yi =■■(β0 + β1xi + μi)

= β0■■+ β1■■xi +■■μi

= β0 +■■μi(3.3.4)

所以,■0也是随机项μi的线性函数。

二、无偏性

所谓无偏性是指■0、■1的期望值分别等于β0和β1。

对式(3.3.3)两边取期望值,有:

E(■1)= β1 +■kiE(μi)= β1(3.3.5)

表明■1是β1的无偏估计量。

同样,对式(3.3.4)两边取期望值,有:

E(■0)= β0 +■■E(μi)= β0(3.3.6)

即■0也是β0的无偏估计量。

三、最小方差性

首先求出参数估计量■1和■0的方差,然后证明■1和■0在β1和β0的所有线

性无偏估计量中方差最小。

由式(3.3.3)有:

V ar(■1)= V ar(β1 +■kiμi)= σ2■k2■

= ■(3.3.7)

由式(3.3.4)有:

V ar(■0)= V ar■= σ2■■■

= σ2■■

= σ2■(3.3.8)

有时,也将式(3.3.8)写成:

V ar(■0)= σ2■(3.3.9)

证明■1在β1的所有线性无偏估计量中方差最小,证明过程见附录1-1。

同样,设■0*是利用其他方法估计出的参数■0的线性无偏估计量,采用同附录1-1

同样方法可以证明

Var(■0*)≥Var(■0)

基于以上分析可以看到,普通最小二乘估计量具有线性、无偏性以及最小方差性等优良性质,是最优线性无偏估计量,这就是著名的高斯-马尔柯夫定理(Gauss-Markov Theorem)。但这些优良的性质依赖于对模型的基本假设,当这些基本假设不满足时,普通最小二乘估计量将不再是最优线性无偏估计量,这时必须寻求改进的估计方法,这

将在放宽经典假设的章节中进一步讲到。

由于具备最优线性无偏估计量性质的估计量的性质不随样本容量大小的改变而改变,因此,普通最小二乘估计量自然也具备大样本性质。证明过程见附录1-2。

第四节参数最小二乘估计量的概率分布及随机项方差的估计量

参数最小二乘估计量的概率分布及随机项方差的估计量

一、参数最小二乘估计量的概率分布

从第三节我们看到,参数估计量■0、■1都是随机项μi的线性函数,而μi都服从正态分布,因此,■0、■1也服从正态分布。■0、■1的期望值分别为β0和β1,它们的方差分别见式(3.3.7)和式(3.3.8),所以,参数估计量■0、■1服从的抽样分

布为:

■0 ~ N■(3.4.1)

■1 ~ N■(3.4.2)

所以,同yi和μi一样,■0和■1也服从正态分布,但这些正态分布的方差都包含σ2,而σ2是总体随机项的方差,总体是不知道的,所以σ2实际上是不知道的。因此,严格来说,■0、■1以及yi的分布还没有确定。我们必须估计出σ2的无偏估计量■2,然后,用■2代替σ2,才可以求出■0、■1以及yi的方差。

二、σ2的无偏估计量

因为,样本残差可以看作是总体随机项的估计量,而样本残差εi = yi - ■i,是完全可以计算的,因此,可以用样本残差的方差来估计总体随机项的方差。

我们的目的是得到σ2的无偏估计量,因此,我们需要确定样本残差平方和的自由

度fe,使得

E■= σ2(3.4.3)

由于■= 0 ,所以,式(3.4.3)等价于

E■= σ2(3.4.4)

可以证明fe = n - 2,其中n是样本容量,证明过程见附录1-3。

如果不进行公式推导的话,也可以从自由度的角度来推断■ε2■的自由度fe,因为在求■ε2■时,样本残差受到正规方程(3.2.4)的约束:

■εi = 0■εixi = 0

由于样本残差εi受到两个约束,所以,样本残差平方和■ε2■的自由度应减少2

个,即为n-2个。

对于无截距模型yi = β1xi + μi而言,这时随机项方差的无偏估计是

■2= ■

因为,无截距模型只有一个未知参数,样本残差受到的正规方程的约束也只有1个,所以样本残差平方和■ε2■的自由度是n-1,而不是n-2。

第五节参数的显著性检验

参数的显著性检验

一、参数的显著性检验

我们已经估计出了回归方程■i = ■0 + ■1xi,但现在问题是总体回归模型中因变量y和自变量x之间确实存在线性关系吗?即β1是否等于0,为此,需要对参数β0、

β1进行显著性检验。

依据假设检验的基本知识,我们可以提出原假设H0:β1 = 0;备择假设H1:β1≠0。在原假设成立的情况下,我们可以依据样本参数估计量所服从的分布构造一种统计量,并在一定的显著性水平下与该统计分布下的临界值作比较,以做出接受或拒绝原假设的决定。假设检验有两种方法:一种是显著性检验方法;一种是置信区间法。这一节主要介绍显著性检验方法,对置信区间法作一般性介绍。

由于参数■0和■1都服从正态分布,见式(3.4.1)和式(3.4.2)。

所以,有统计量

■= ■~N(0,1)■= ■~N(0,1)(3.5.1)

但这两个标准正态分布统计量中都有σ2,而σ2实际上是不知道的,因此,上述标准正态统计量是求不出来的。由于上一节已经估计出了σ2的无偏估计量■2= ■,因此,可以考虑在式(3.5.1)中用■2代替σ2,以得到准确的分布值。

V■r(■0)= ■2 ■V■r(■1)= ■(3.5.2)而这时统计量■,■,不再服从标准正态分布,而是服从自由度为(n-2)的t分

布,即

■= ■~ t(n - 2)■= ■~ t(n - 2)(3.5.3)

式(3.5.3)证明过程见附录1-4。

所以,在原假设H0:β1 = 0成立的情况下,有统计量

T = ■~ t(n - 2)(3.5.4)

对给定的显著性水平(Level of Significance)α,查自由度为n-2的t分布表,得临界值(Critical Value)tα/2(n - 2),如果|T| >tα/2(n - 2),则拒绝原假设H0:β1 = 0,而接受备择假设H1:β1≠0,表明回归模型中被解释变量与解释变量间确实存在线性关系。其中α称为显著性水平(Level of Significance),1-α称为置信系数或置信度(Confidence of Coefficient),对β0的检验可以采取同样的方法进行。

图3-2显示了参数显著性t检验在α显著性水平上的t分布拒绝域。

上述假设检验方法的不足之处在于选择显著水平α的任意性,虽然α一般取1%、5%和10%,但这些值并不是固定不变。在实践中最好用p值,即相伴概率值,也称为

统计量的精确显著水平。在Eviews软件中,回归结果都给出了相应回归参数的p值,p

值定义为拒绝零假设最低的显著水平。

二、t检验实例

例3.5.1 对于书报支出样本1的回归结果

■i = 17.8075 + 0.0407xi

我们来检验β0、β1的显著性,计算数据见表3-1。

对于原假设H0:β0 = 0,备择假设H1:β0≠0。在原假设成立的情况下,构造统

计量

Tβ0 = ■= ■= 10.2353

在5%的显著性水平下,自由度为8的t分布的临界值t0.025(8)= 2.306,很显然Tβ0 > 2.306,所以,否定原假设,认为常数项是显著不等于0的。而从p值的角度来看,在自由度为8时,Tβ0 = 10.2353的概率值低于0.001,即在0.001的显著性水

平下,t值是显著的。

对于原假设H0:β1 = 0,备择假设H1:β1≠0。在原假设成立的情况下,构造统

计量

Tβ1 = ■= ■= 7.2576

很显然,在5%的显著性水平下,Tβ1 >2.306,所以,否定原假设,认为被解释变量每周购买书报支出金额确实是解释变量个人每周可支配收入的线性函数。

在实际应用中,由于显著水平通常取5%,查t分布表可以看见,当自由度n-2≥13时,t分布临界值tα/2,即t0.05/2大体保持在2附近,因此,可选择简单的判断方法,当t统计值远远大于2时,且样本容量大于15左右时,则在5%的显著性水平下,可以

认为参数β显著的不等于0。

三、参数显著性检验的置信区间法

还有一种检验方法是置信区间法(Confidence Interval Method),我们以β1为例进

行说明:

由于■~ t(n - 2),所以,在一定的显著性水平α下,有:

P-tα/2(n - 2)<■<tα/2(n - 2)= 1 - α(3.5.5)

对该式进行等价变形有:

P■1 - tα/2(n - 2)■<β1 <■1 + tα/2(n - 2)■= 1 - α(3.5.6)即可以说随机区间(Random Interval)(■1 - tα/2(n - 2)■,■1 + tα/2(n - 2)■)包含β1的概率是1-α,这个区间也是回归参数的区间估计。

因此,对于零假设H0:β1 = 0和备择假设H1:β1≠0,当随机区间(■1 - tα/2(n - 2)■,■1 + tα/2(n - 2)■)不包含0时,我们就可以以1-α的置信度拒绝零假设,即表明被解释变量和解释变量间存在线性关系。

采用同样方法也可以得到β0的1-α置信度的置信区间,并对β0的显著性进行检

验。

第六节回归方程的显著性检验

回归方程的显著性检验

第五节是检验回归参数是否显著,而本节的目的是检验样本回归方程同x和y的所有观察值的拟合情况,检验方法包括拟合优度检验以及F检验。

一、拟合优度检验

拟合优度检验是检验样本回归方程拟合样本观察值的程度,即利用样本观察值和回归方程估计值构建一个统计量,然后与已有标准进行比较,以判断拟合好坏,下面进行

具体介绍。

1. 总离差平方和的分解

设由一组样本观察值(xi,yi)(i=1,2,3,…,n)得到的回归方程为■i = ■0 + ■1xi,则y的第i个观察值yi与样本均值■的离差yi - ■可以分解为两部分:yi - ■i

和■i - ■,即

yi - ■= (yi - ■i)+ (■i - ■)

其中,yi - ■称为因变量yi相对于均值的总离差,而■i - ■则表示总离差中被y 对x的回归所解释的部分,剩余部分yi - ■i则是总离差中没有被回归解释的部分,即

残差项εi。三部分的关系见图3-3。

从总离差的分解示意图3-3可以看到,■i离yi越近,则■i - ■越大,而残差εi 越小,表明回归线拟合样本点yi越好;显然,当回归线经过yi点时,这时yi - ■= ■i - ■,即总离差就等于回归线所说明的部分,表明回归线完全拟合了观察值yi。

图3-3显示的是回归线对一个样本点的拟合,但对所有的样本点而言,则应该考察所有样本观察值的总离差平方和:■(yi - ■)2,我们将该总离差平方和进行分解

■(yi - ■)2 =■[(■i - ■)+ (yi - ■i)]2

=■(■i - ■)2 +■(yi - ■i)2 + 2■(■i - ■)(yi - ■i)

=■(■i - ■)2 +■ε2■+ 2■■iεi

根据普通最小二乘估计的一些性质我们知道:■■iεi = 0,所以,上式可以简化

为:

■(yi - ■)2 =■(■i - ■)2 +■ε2■(3.6.1)

其中,我们记:

TSS =■(yi - ■)2 =■■2■

称为总离差平方和(Total Sum of Squares,TSS),表示因变量观察值偏离均值的程度,它反映了样本观察值因变量总离差的大小。

ESS =■(■i - ■)2 =■■2■

称为回归平方和或解释平方和(Explained Sum of Squares,ESS),表示因变量估计值偏离均值的大小,即总离差中回归方程所解释的部分。

RSS =■(yi - ■i)2 =■ε2■

称为残差平方和(Residual Sum of Squares,RSS),表示因变量观察值与估计值偏离的大小,即总离差中回归模型没有解释的部分。

TSS = ESS + RSS

即总离差平方和等于回归平方和加上残差平方和。

2. 拟合优度

显然如果回归模型很好地拟合了样本观察值,则ESS很大,而RSS很小。如果所有因变量的样本观察值都落在回归线上,则ESS就等于TSS,而RSS等于0;反过来,如果样本回归线完全不能拟合样本观察值,则RSS = TSS,而ESS = 0。当然这两种都是极端的情况,一般的情况是ESS接近TSS,而RSS较小。因此,我们可以通过观察ESS占TSS的比重来判断样本回归线拟合样本观察值的好坏,这就是拟合优度(也有称判定系数或可决系数,Coefficient of Determination)的基本思想。

拟合优度用R2表示:

R2 = ■= ■(3.6.2)

很显然,0≤R2≤1,R2越接近1,则拟合效果越好,R2越接近0,则拟合效果越差。当R2=0,则表明因变量y和解释变量x之间没有任何关系。因此,R2似乎和相关

系数的平方r2之间存在某种联系,实际上,从数学上来说R2 = r2,即拟合优度的大小等于相关系数的平方,将式(3.6.2)进行变形,有:

R2 = ■= ■

= ■2■■

= ■■■

= ■■

= r2

虽然拟合优度R2和相关系数的平方r2两者在数字上相等,但两者的含义非常不同。R2表示回归线拟合样本观察值的程度的大小或好坏,而相关系数则表明两个变量线性

相关程度的大小。

注意,计算拟合优度R2时通常假定了模型中存在截距项,因此,无截距模型不能使用这个公式,如果使用了这个公式,则得到的结果可能没有意义,因为计算出来的

R2可能为负数。

现在计算一下书报支出例子中回归方程■i = 17.8075 + 0.0407xi的拟合优度,数据

见表3-1。

ESS =■(■i - ■)2 = 341.6511

而,TSS =■(yi - ■)2 = 394

所以,R2 = ■= 0.8671

二、回归方程显著性的F检验

和参数显著性检验的t检验不同,F检验是回归方程总体的显著性检验,即检验所有的解释变量x对y的影响的显著性,也就是检验方程整体的显著性。这实际上就是对回归方程拟合优度的检验,由于F检验是对方程所有解释变量显著性的检验,所以,采取的是联合假设,即对多元线性回归模型而言,假设所有解释变量的回归系数都等于0,在此基础上构建F统计量,然后根据回归方程以及样本观察值计算F值,最后,根据在一定的显著性水平和自由度下F的临界值判断接不接受原假设。

在一元线性回归模型中,由于只有一个解释变量,因此原假设只假设β1 = 0,下

面介绍一下F检验的检验步骤:

第一,提出原假设H0:β1 = 0,备择假设:H0:β1 ≠0。

第二,构建F统计量:

F = ■= ■~F(fE,fR)(3.6.3)

证明该统计量在原假设成立的基础上服从F分布的过程见附录1-5。

第三,根据样本观察值和回归结果计算该F统计量。

第四,对给定的显著水平α,查F分布表,并确定F分布的临界值Fα(fE,fR),比较F统计量和Fα(fE,fR)的大小;如F >Fα(fE,fR),则拒绝原假设H0,可以认为在1-α概率水平下,所有解释变量对y的影响都显著,即回归方程在总体上是显著的;反之,若F <Fα(fE,fR),则不能拒绝原假设H0,说明至少在1-α概率水平下,不能认为所有解释变量对y的影响都显著,即回归方程估计不可靠。图3-4

是显著性水平为α时F检验的拒绝域。

在统计量的自由度问题上,由于TSS = ESS + RSS,因此,由平方和的分解定理可知,TSS、ESS以及RSS的自由度fT、fE和fR满足如下关系:

fT = fE + fR(3.6.4)

由于前面已证明残差平方和RSS的自由度是n-2,而总离差平方和■(yi - ■)2受到一个约束,即■(yi - ■)= 0,所以其自由度减1,为n-1,从而回归平方和的自

由度仅为1。

即fT = n - 1,fE = 1,fR = n - 2。

三、回归方程显著性检验实例

例3.6.1 下面根据上述F检验方法检验一下书报支出例子中回归方程的显著性,数

据见表3-1。

F = ■= ■= 52.2114

当显著性水平α=0.05,自由度为(1,8)时,F分布的临界值F0.05(1,8)= 5.32,

显然

52.2114 > 5.32

所以,在95%的概率上可以说回归方程■i = 17.8075 + 0.0407xi从总体上来说是显

著的。

在一元线性回归模型中,F检验和t检验是一致的。由于一元线性回归模型只有一个解释变量,所以,F检验和t检验都是针对相同的原假设H0:β1 = 0和备择假设H1:β1 ≠0进行检验,而且F统计量和t统计量还有如下关系:

F = ■= ■

= ■

= ■■

= t2(3.6.5)

四、F统计量与拟合优度的关系

拟合优度检验和F统计量检验都是检验方程总体是否显著的统计量,但两者检验的角度不同,是同一问题的两个不同方面。拟合优度是在已经得到回归方程的基础上检验回归方程拟合样本点好坏的程度;而F检验是从样本观测值出发检验回归方程总体的显著性。因此,两者存在明显的关联性,方程拟合样本点的程度越高,即拟合优度越高,则方程从总体上就越显著,因此,F检验其实可以看作是对拟合优度的检验,下面

看一下这两个统计量的数量关系。

F = ■=(n - 2)■= (n - 2)■= (n - 2)■(3.6.6)

从式(3.6.6)可以看到,R2越大,则F越大,两者呈正相关关系。

第七节一元线性回归模型的预测问题

一元线性回归模型的预测问题

预测可分为无条件预测和有条件预测。在预测期自变量xf已知的情况下,预测相应因变量yf的值,这种预测就称为无条件预测;在预测期自变量xf未知的情况下,但可以通过其他方法得到预测期自变量xf的估计值,再来预测相应因变量yf的值,这种预测就称为有条件预测。由于有条件预测只相当于在无条件预测的过程中增加了一个估计预测期自变量的估计值■f的过程,除此之外,没有太大的差别,为简便起见,本节

只介绍无条件预测。

预测又包括两个方面,即点预测和区间预测。顾名思义,点预测是指估计与预测期自变量xf相对应的因变量的预测值■f,由于回归模型■i = ■0 + ■1xi(i = 1,2,3,…,n)中相应回归参数■0和■1都随样本观测值的变化而变化,是随机性变量,因此,严格来说,得到的■f应是预测值的一个估计值,而预测值则是以某一置信度处于以估计值■f为中心的一个区间内。因此,更应该进行区间预测,即预测因变量估计值的概率

区间。

一、点预测

假设总体回归模型为:

yt = β0 + β1xt + μt (t = 1,2,3,…,n)(3.7.1)

其中,t表示第t个抽样时期,也就是说基于1,2,…,n个时期的样本对该回归

模型进行估计,估计结果为:

■t = ■0 + ■1xt(3.7.2)

现在假设需要对样本外的某个时期tf进行预测,时期tf的自变量x■已知,则根据式(3.7.2)可以很容易得到时期tf的因变量y■的估计值

■■= ■0 + ■1x■(3.7.3)

这个估计值就是时期tf的因变量的点预测值。

点预测值■■既可以看作是条件均值E(y/xt = x■)的无偏估计,也可以看作是个

别值y■的无偏估计,下面分别进行证明:

E(y/xt = x■)= β0 + β1x■

E(■■)= E(■0 + ■1x■)= β0 + β1x■

所以

E(■■)= E(y/xt = x■)

即点预测值■■是条件均值E(y/xt = x■)的无偏估计。

而个别值为:y■= β0 + β1x■+ μ■

所以

E(y■)= E(β0 + β1x■+ μ■)= β0 + β1x■= E(■■)

表明点预测值■■也是个别值y■的无偏估计。

二、区间预测

区间预测的基本思路是首先构建预测值的t统计量,然后在一定置信水平下得到该统计量的置信区间,经过等价变形后,即可得到该统计量在一定置信水平下的预测区间。

可见,区间预测的关键是得到预测值的t统计量。

下面分别介绍总体条件均值E(y■/xt = x■)的区间预测和个别值y■的区间预测。

1. 总体条件均值E(y■/xt = x■)的区间预测

下面在求条件均值的预测区间时将E(y■/xt = x■)简写为E(y■)。

基本思想:因为■■= ■0 + ■1x■,而■0、■1都服从正态分布,所以■■也服从正态分布,因而统计量T = ■= ■~t(n - 2),其中V■r(■■)是Var(■■)中σ2用无偏估计量■2= ■代替后得到的估计量,有了服从t分布的统计量T = ■,我们就可以得到E(y■)的一定置信水平下的置信区间,即得到条件均值E(y■)的

预测区间。

下面介绍求V■r(■■)的过程:

Var(■■)= Var(■0 + ■1x■)= E[(■0 + ■1x■)- E(■0 + ■1x■)]

2

= E[(■0 - β0)+ (■1 - β1)x■]2(3.7.4)

■0 = β0 +■■μt

■1 = β1+■ktμt

所以

(■0 - β0)+ (■1 - β1)x■=■■μt +■ktμtx■

= ■■μt

其中,■■= x■- ■= x■- ■■xt

从而式(3.7.4)可以进一步化简为:

V ar(■■)= E■2

=■■2σ2

= ■σ2(3.7.5)

在式(3.7.5)的证明过程中,利用了相互独立的随机变量和的方差等于方差的和的基本定理,以及■kt = 0、■k2■= 1/■■2■的结论。

所以,将式(3.7.5)中的σ2用它的无偏估计量■2= ■代替就可以得到V■r(■

■),即

V■r(■■)= ■■2(3.7.6)

从而

T = ■= ■~t(n - 2)(3.7.7)

在显著性水平α下,该T统计量1-α的概率区间为:

P-tα/2(n - 2)<■<tα/2(n - 2)= 1 - α(3.7.8)

经过等价变形,得到E(y■)的1-α的置信区间为:

■(3.7.9)

2. 个别值y■的区间预测

基本思想:由于需要利用■■来估计y■的置信区间,而且点预测值■■是个别值y■的无偏估计,即E(■■- y■)= 0,所以,考虑利用(■■- y■)来构建T统

计量,即

T = ■~ t(n - 2)(3.7.10)

其中,V■r(■■- y■)是Var(■■- y■)中σ2用无偏估计量■2= ■代替后得到的估计量,这样就可以得到y■的基于■■的置信区间。

所以,首先必须求得Var(■■- y■),考虑到■■= ■0 + ■1x■,即■■依赖于■0和■1,而■0和■1只与样本期间的随机项μt(t = 1,2,3,…,n)有关,而y■= β0 + β1x■+ μ■,即y■只与样本期外的tf期的随机项μ■有关,而不同时期的随机项不相关,从而使得■■和y■也不相关,于是有Var(■■- y■)= V ar(■■)+ Var(y■)= ■σ2 + σ2 = ■σ2(3.7.11)

从而

V■r(■■- y■)= ■■2(3.7.12)

所以,可以得到y■的1-α的置信区间为:

(3.7.13)

下面我们来看一下个别值y■的预测区间与总体条件均值E(y■)的预测区间与

哪些因素有关。

比较一下式(3.7.9)和式(3.7.13)可以看到:

(1)个别值y■的预测区间较总体条件均值E(y■)的预测区间宽,即在相同的置信水平下,个别值y■的预测误差较总体条件均值E(y■)的预测误差要大。这主要是由Var(■■)和Var(■■- y■)的大小不同所致。

(2)其次,样本容量n越大,y■和E(y■)的预测区间越小,即预测越精确。

(3)当样本越分散,即■■t越大,则y■和E(y■)的预测区间越小,即预

测越精确。

如果对所有的与自变量xt相对应的yt的个别值和总体条件均值进行区间预测,在同样的置信水平1-α下,将各自的预测区间端点连接起来,就分别得到yt的个别值和总体条件均值的置信带(Confidence Band)或置信域(Confidence Zone),见图3-5。

图3-5是yt和E(y■)的预测区间示意图,从图上可以看到,yt的预测区间较E (yt)的预测区间宽。此外,还可以看到,当预测点xt靠近x时,yt和E(yt)的预

测区间都变小,即预测精度提高;反之,当预测点xt远离x时,yt和E(yt)的预测

区间都变大,即预测精度降低。

三、预测实例

例3.7.1 在书报支出例子中,得到的样本回归函数为:

■i = 17.8075 + 0.0407xi

则若每周个人可支配收入为600元时,有

■f = 17.8075 + 0.0407 ×600 = 42.2275(元)

则42.2275元可以作为总体均值E(y/x=600)的预测值,也可以作为某个每周可支

配收入为600元时,其书报支出的估计值。

而V■r(■f)= ■■= ■■= 3.9705

■= 1.9926

V■r(■f - yf)= ■■= ■■= 10.4568

■= 3.2337

从而,E(y/x=600)的95%的置信区间为:

(42.2275 - 2.306 ×1.9926,42.2275 + 2.306 × 1.9926)

即(37.6326,46.8224)。

而某个每周可支配收入为600元时,其书报支出yf的95%的置信区间为:(42.2275 - 2.306 ×3.2337,42.2275 + 2.306 ×3.2337)

即(34.7706,49.6844)。

第八节一元线性回归模型的应用实例

一元线性回归模型的应用实例

例3.8.1①这一节通过一个具体的例子介绍Eviews6.0软件在一元线性回归模型分析中的应用。考察外国直接投资对涉外税收的影响。选择1992~2006年的外国直接投资(FDI,亿美元)以及涉外税收(FT,亿元)的样本来分析外国直接投资对涉外税收的

贡献,数据见表3-2。

一、建立理论模型

本例建立如下一元线性回归模型:

FTt = β0 + β1FDIt + μt(3.8.1)

该模型中FT表示涉外税收,FDI表示外国直接投资。

二、利用Eviews6.0软件估计模型

利用Eviews6.0进行估计,得到估计结果如表3-3所示。

回归结果的报告通常写成如下的形式:

■T = -3343.554 + 12.8657FDI

(-4.0458)(7.4284)(3.8.2)

R2 = 0.8093,F = 55.1804,Prob(F-statistic)= 0.000005。

其中方程(3.8.2)中括号内的数据表示相应回归参数的t检验值。R2是拟合优度;F是方程显著性检验统计量;Prob(F-statistic)是F检验的伴随概率,也可以看作是拒绝F检验原假设的最小p值。表3-3中其余各项统计量的具体含义将在第四章多元线性

回归模型中介绍。

三、检验模型

从回归估计的结果来看,模型拟合较好。拟合优度达到0.81,表明模型从整体上拟合样本较好。F统计量值为55.18,其显著性水平为0.0000,表明方程从总体上显著,即线性关系显著成立。从截距项和斜率项的t检验值和p值看,t值都显著大于5%显著

性水平下自由度为n-2=15-2=13的临界值t0.05/2(13)= 2.160,其实这也可以从p值看出,截距项和斜率项的p值分别为0.0014和0.0000,表明最低可在0.0014和0.0000的显著水平上拒绝截距项和斜率项为零的原假设。回归结果表明在1992~2006年期间,FDI每增加1亿美元,涉外税收将增加12.8657亿元人民币,而截距项大多数时候并没

有明确的经济含义。

四、预测

假设2007年,我国引进FDI约为770.19亿美元,由上述回归方程可以得到2007

年我国涉外税收对数值预测的点估计值为:

FT2007 = -3343.554 + 12.8657 ×770.19 = 6565.4795

则,FT2007 = 6565.4795(亿元)

下面给出2007年我国涉外税收的预测区间。由Eviews软件可知,■ε2■= 13350487,FDI的样本均值为452.6133,样本方差为24453.55。

于是在95% 的置信水平下,E(FT2007)的预测区间为:

6565.4795 - 2.160 ×■= 5249.8236

6565.4795 + 2.160 ×■= 7881.1354

所以,E(FT2007)的预测区间为(5249.8236,7881.1354)。

同样,在95% 的置信水平下,FT2007的预测区间为:

6565.4795 - 2.160 ×■= 4011.5927

6565.4795 + 2.160 ×■= 9119.3663

所以,FT2007的预测区间为(4011.5927,9119.3663)。

第九节极大似然估计法

极大似然估计法

这一节我们介绍应用极大似然原理(Maximum Likelihood,ML)估计一元线性回归模型参数的方法。本节将证明,只要随机项μi服从正态分布,参数β的极大似然估计量(Maximum Likelihood Estimator,MLE)也是OLS估计量,但σ2的OLS估计量

和极大似然估计量略有差别。

一、极大似然估计法的基本思想

极大似然估计法包括有限信息极大似然估计(Limited Information Maximum Likelihood,LIML)法和完全信息极大似然估计(Full Information Maximum Likelihood,FIML)法,本节介绍的是有限信息极大似然估计法。极大似然估计法是依据极大似然原理发展起来的一种参数估计方法,虽然应用没有普通最小二乘法普遍,但它在计量经济学中占有很重要的地位,因为极大似然原理比普通最小二乘原理更本质地揭示了通过样本估计总体参数的内在机理。计量经济学理论的发展,更多的是以极大似然原理为基

础。

极大似然估计法和普通最小二乘估计法是从两种不同思想出发的参数估计方法。极大似然估计方法的基本思想是:当从总体中随机抽取n组样本后,参数估计值应使得该随机抽取的n组样本观测值的联合概率为最大;而普通最小二乘法的基本思想是:当从总体中随机抽取样本后,参数估计值应使得回归模型最好的拟合样本观测值。

二、极大似然估计法估计参数的过程

现在介绍利用极大似然估计方法估计参数的基本过程:如果总体服从的分布已知,且已经知道总体的参数,则由抽取的样本可以直接计算其样本观测值的概率。如果已经知道总体服从的分布,但分布的参数未知(线性回归模型就是这种类型),例如,假设

总体Y的概率密度函数为f(y;β1,β2,…,βn),其中,β1,β2,…,βn表示总体分布的n个参数。若Y是离散性分布,则f(y;β1,β2,…,βn)表示概率p(Y = y)。这时从总体中随机抽取n组样本Y1,Y2,…,Yn,则这n组随机样本的联合概率密度函数为■f(yi;β1,β2,…,βn),若Y是离散性分布,则可用n组离散性随机样本的联合概率密度函数表示概率P(Y1 = y1,Y2 = y2,…,Yn = yn)。

我们记函数:

L=L(β1,β2,…,βn/yi)=■f(yi;β1,β2,…,βn)(3.9.1)为似然函数(Likelihood Function),显然该似然函数表示n个样本观测值的联合概率。极大似然估计法的基本思想是参数β1,β2,…,βn的估计值■1,■2,…,■n应使得该联合概率密度函数最大,即这n组样本观测值出现的概率最大。根据微积分学运算的基本知识我们知道,要使得似然函数L取极大值,则■1,■2,…,■n应满

■= 0■= 0 ■■= 0(3.9.2)

因为,L和lnL的极大值在同一参数处达到,所以,在实际计算过程中,通常不是求似然函数L的极大值,而是求其自然对数lnL的极大值,这样就能将L的乘积形式

转化为lnL的求和形式,从而简化运算,即

■= 0■= 0 ■■= 0(3.9.3)

从而得到■1,■2,…,■n估计量。

三、一元线性回归模型的极大似然估计法

对于一元线性回归模型

yi = β0 + β1xi + μi

当假定随机项μi服从正态分布N(0,σ2)时,则yi也服从正态分布,即

yi~N(β0 + β1xi,σ2)

从而总体yi的概率密度函数为:

f(yi;β0,β1,σ2)=■exp-■(yi - β0 - β1xi)2(3.9.4)现有从总体中随机抽取的n组样本yi,xi(i = 1,2,3,…,n),则该n组样本的

似然函数为:

L = L(β0,β1,σ2/y1,y2,…,yn;x1,x2,…,xn)

= ■nexp-■■(yi - β0 - β1xi)2(3.9.5)

根据上面的极大似然估计法估计参数的过程可知,参数β0,β1和σ2的估计量使似然函数L达到极大值,也能使其自然对数达到极大值,因此有:

lnL = -■ln(2π)- nln(σ)- ■■(yi - β0 - β1xi)2(3.9.6)根据极大似然估计法的基本思想,使得对数似然函数lnL达到最大值时参数β0、β1和σ2的取值就是极大似然估计值■0、■1和■2,因此,使lnL达到最大时,有:lnL = -■ln(2π)- nln(■)- ■■(yi - ■0 - ■1xi)2(3.9.7)因此,根据微积分的基本知识,使式(3.9.7)分别对参数■0、■1和■2求偏导数,

有:

■= ■■(yi - ■0 - ■1xi)= 0■= ■■(yi - ■0 - ■1)xi = 0■= -■+ ■

■(yi - ■0 - ■1xi)2(3.9.8)

求解联立方程(3.9.8)有:

■0 = ■- ■1■(3.9.9)

■1 = ■(3.9.10)

■2 = ■= ■(3.9.11)

比较上述极大似然估计量值■0、■1和■2的结果与OLS估计量■0、■1和■

2的结果可知:

对于参数β0、β1来说,ML法和OLS法没有差别,极大似然估计量值■0、■1

也是无偏估计量。

对于σ2的估计量而言,ML法和OLS法有差别,OLS估计量■2是σ2的无偏估计,而ML估计量■2是有偏估计量,但在大样本下具备一致性。

将式(3.9.7)中的参数■0、■1和■2用估计值表达式代替,得到的就是对数似

然函数(Log Likelihood)。

lnL = -■ln(2π)- ■ln■- ■■ε2■

= -■■(3.9.12)

需要注意的是,Eviews回归结果显示的Log likelihood是常用对数的似然函数,而

式(3.9.12)是自然对数的似然函数。

本章思考练习题

1. 一元线性回归模型的基本假设有哪些?

2. 普通最小二乘法的基本原理是什么?

3. 在基本假设中,假设随机项的期望值等于零,能不能假设随机项的均值等于零?

为什么?

4. F检验和t检验有何不同?在一元线性回归模型中,二者是否具有等价的作用?

5. 随机项与样本残差是不是一回事?如果不是,二者的区别是什么?

6. 样本残差和■εi = 0是否一定成立?请给出答案并说明原因。

7. 对于线性回归模型yi = β0 + μi(i = 1,2,3,…,n),假设随机项μi满足

经典回归模型的基本假定,且Var(μi)= σ2,试证明:

(1)■0 = ■;

(2)E(■0)= β0;

(3)Var(■0)= ■。

8. 证明被解释变量y的实际值的均值与估计值的均值相等,即■= ■。

9. 下表是我国1978~2006年的历年出口总额(y,亿元)和GDP(x,亿元)的统

计数据。

假设出口总额与GDP之间存在如下的一元线性回归关系

yi = β0 + β1xi + μi

(1)作出出口总额与GDP的散点分布图,并分别利用手工和Eviews软件估计出口总额与GDP之间的一元线性回归模型。

(2)解释回归参数■0、■1的经济含义。

(3)对所估计的回归方程■i = ■0 + ■1xi进行检验。

(4)若2007年的国内生产总值为235000亿元,求出口总额的预测值及预测区间。

计量经济学 第三章、经典单方程计量经济学模型:多元线性回归模型

计量经济学第三章、经典单方程计量经济学模型:多元线性回归模型

第三章、经典单方程计量经济学模型:多元线性 回归模型 一、内容提要 本章将一元回归模型拓展到了多元回归模型,其基本的建模思想与建模方法与一元的情形相同。主要内容仍然包括模型的基本假定、模型的估计、模型的检验以及模型在预测方面的应用等方面。只不过为了多元建模的需要,在基本假设方面以及检验方面有所扩充。 本章仍重点介绍了多元线性回归模型的基本假设、估计方法以及检验程序。与一元回归分析相比,多元回归分析的基本假设中引入了多个解释变量间不存在(完全)多重共线性这一假设;在检验部分,一方面引入了修正的可决系数,另一方面引入了对多个解释变量是否对被解释变量有显著线性影响关系的联合性F检验,并讨论了F检验与拟合优度检验的内在联系。 本章的另一个重点是将线性回归模型拓展到非线性回归模型,主要学习非线性模型如何转化为线性回归模型的常见类型与方法。这里需要注

意各回归参数的具体经济含义。 本章第三个学习重点是关于模型的约束性检验问题,包括参数的线性约束与非线性约束检验。参数的线性约束检验包括对参数线性约束的检验、对模型增加或减少解释变量的检验以及参数的稳定性检验三方面的内容,其中参数稳定性检验又包括邹氏参数稳定性检验与邹氏预测检验两种类型的检验。检验都是以F检验为主要检验工具,以受约束模型与无约束模型是否有显著差异为检验基点。参数的非线性约束检验主要包括最大似然比检验、沃尔德检验与拉格朗日乘数检验。它们仍以估计无约束模型与受约束模型为基础,但以最大似然原理进行估计,且都适用于大样本情形,都以约束条件个数为自由度的2χ分布为检验统计量的分布特征。非线性约束检验中的拉格朗日乘数检验在后面的章节中多次使用。 二、典型例题分析 例1.某地区通过一个样本容量为722的调查数据得到劳动力受教育的一个回归方程为 . 10+ 36 + = - .0 .0 medu fedu sibs edu210 131 .0 094

计量经济学-一元线性回归预测模型-Eviews6

数学与统计学院实验报告 院(系):数学与统计学学院学号:姓名: 实验课程:计量经济学指导教师: 实验类型(验证性、演示性、综合性、设计性):综合性 实验时间:2017年 3 月 1 日 一、实验课题 一元线性回归预测模型 二、实验目的和意义 用回归模型预测木材剩余物 (1)用Eviews软件建立y关于x的回归方程,并对模型和参数做假设检验; (2)求y t的点预测和平均木材剩余物产出量E(y t)的置信区间预测。 (3)假设乌伊岭林业局2000年计划采伐木材20万m3,求木材剩余物的点预测值。 三、解题思路 1、录非结构型的数据; 2、进行描述性统计,列出回归模型;通过看t、f等统计量,检验回归模型是否正确 3、运用forecast进行内预测(1-16样本),可以得到yf的点预测;再运用[yf+se]、[yf-se]进行区间估计(运用excel操作) 4、将样本范围改到17个,令x=20,运用forecast进行外预测(17-17) 四、实验过程记录与结果

翠峦11.69 32.7 乌马河 6.8 17 美溪9.69 27.3 大丰7.99 21.5 南岔12.15 35.5 带岭 6.8 17 朗乡17.2 50 桃山9.5 30 双丰 5.52 13.8 2、用Eviews软件建立y关于x的回归方程,并对模型和参数做假设检验;

模型为:y=0.404280x-0.762928 通过上表t、f统计量的p值<0.05,以及残差图基本在两倍标准差的范围内波动,可以得出该模型通过原假设。 3、求yt的点预测和平均木材剩余物产出量E(yt)的置信区间预测。Yt的点估计:

第三章 一元线性回归模型

第三章 一元线性回归模型 一、预备知识 (一)相关概念 对于一个双变量总体),(i i x y ,若由基础理论,变量x 和变量y 之间存在因果关系,或x 的变异可用来解释y 的变异。为检验两变量间因果关系是否存在、度量自变量x 对因变量y 影响的强弱与显著性以及利用解释变量x 去预测因变量 y ,引入一元回归分析这一工具。 将给定i x 条件下i y 的均值 i i i x x y E 10)|(ββ+= (3.1) 定义为总体回归函数(Population Regression Function,PRF )。定义 )|(i i i x y E y -为误差项(error term ),记为i μ,即)|(i i i i x y E y -=μ,这样i i i i x y E y μ+=)|(,或 i i i x y μββ++=10 (3.2) (3.2)式称为总体回归模型或者随机总体回归函数。其中,x 称为解释变量(explanatory variable )或自变量(independent variable );y 称为被解释变量(explained variable )或因变量(dependent variable );误差项μ解释了因变量的变动中不能完全被自变量所解释的部分。误差项的构成包括以下四个部分: (1)未纳入模型变量的影响 (2)数据的测量误差 (3)基础理论方程具有与回归方程不同的函数形式,比如自变量与因变量之间可能是非线性关系 (4)纯随机和不可预料的事件。 在总体回归模型(3.2)中参数10,ββ是未知的,i μ是不可观察的,统计计量分析的目标之一就是估计模型的未知参数。给定一组随机样本 n i y x i i ,,2,1),,( =,对(3.1)式进行估计,若10,),|(ββi i x y E 的估计量分别记为^ 1^ 0^ ,,ββi y ,则定义3.3式为样本回归函数 i i x y ^ 1^ 0^ ββ+= (n i ,,2,1 =) (3.3) 注意,样本回归函数随着样本的不同而不同,也就是说^ 1^ 0,ββ是随机变量,它们的随机性是由于i y 的随机性(同一个i x 可能对应不同的i y )与x 的变异共同引起的。定义^ i i y y -为残差项(residual term ),记为i e ,即^ i i i y y e -=,这样 i i i e y y +=^ ,或 i i i e x y ++=^ 1^0ββ (n i ,,2,1 =) (3.4)

一元线性回归模型习题和答案解析

一元线性回归模型 一、单项选择题 1、变量之间的关系可以分为两大类__________。A A 函数关系与相关关系 B 线性相关关系和非线性相关关系 C 正相关关系和负相关关系 D 简单相关关系和复杂相关关系 2、相关关系是指__________。D A 变量间的非独立关系 B 变量间的因果关系 C 变量间的函数关系 D 变量间不确定性的依存关系 3、进行相关分析时的两个变量__________。A A 都是随机变量 B 都不是随机变量 C 一个是随机变量,一个不是随机变量 D 随机的或非随机都可以 4、表示x 和y 之间真实线性关系的是__________。C A 01???t t Y X ββ=+ B 01()t t E Y X ββ=+ C 01t t t Y X u ββ=++ D 01t t Y X ββ=+ 5、参数β的估计量?β 具备有效性是指__________。B A ?var ()=0β B ?var ()β为最小 C ?()0β β-= D ?()ββ-为最小 6、对于01??i i i Y X e ββ=++,以σ?表示估计标准误差,Y ?表示回归值,则__________。B A i i ??0Y Y 0σ∑ =时,(-)= B 2 i i ??0Y Y σ∑=时,(-)=0 C i i ??0Y Y σ∑=时,(-)为最小 D 2 i i ??0Y Y σ∑=时,(-)为最小 7、设样本回归模型为i 01i i ??Y =X +e ββ+,则普通最小二乘法确定的i ?β的公式中,错误的是__________。D A ()()()i i 1 2 i X X Y -Y ?X X β--∑∑= B ()i i i i 1 2 2 i i n X Y -X Y ?n X -X β∑∑∑∑∑= C i i 1 2 2 i X Y -nXY ?X -nX β∑∑ = D i i i i 1 2 x n X Y -X Y ?βσ ∑∑∑= 8、对于i 01i i ??Y =X +e ββ+,以?σ表示估计标准误差,r 表示相关系数,则有__________。D A ?0r=1σ =时, B ?0r=-1σ =时, C ?0r=0σ =时, D ?0r=1r=-1σ =时,或 9、产量(X ,台)与单位产品成本(Y ,元/台)之间的回归方程为?Y 356 1.5X -=,这说明__________。D

一元线性回归模型案例分析

一元线性回归模型案例分析 一、研究的目的要求 居民消费在社会经济的持续发展中有着重要的作用。居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。改革开放以来随着中国经济的快速发展,人民生活水平不断提高,居民的消费水平也不断增长。但是在看到这个整体趋势的同时,还应看到全国各地区经济发展速度不同,居民消费水平也有明显差异。例如,2002年全国城市居民家庭平均每人每年消费支出为6029.88元, 最低的黑龙江省仅为人均4462.08元,最高的上海市达人均10464元,上海是黑龙江的2.35倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,居民的收入水平、就业状况、零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我们研究的对象是各地区居民消费的差异。居民消费可分为城市居民消费和农村居民消费,由于各地区的城市与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城市居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。所以模型的被解释变量Y 选定为“城市居民每人每年的平均消费支出”。 因为研究的目的是各地区城市居民消费的差异,并不是城市居民消费在不同时间的变动,所以应选择同一时期各地区城市居民的消费支出来建立模型。因此建立的是2002年截面数据模型。 影响各地区城市居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。为了与“城市居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 从2002年《中国统计年鉴》中得到表2.5的数据: 表2.52002年中国各地区城市居民人均年消费支出和可支配收入

一元线性回归模型的置信区间与预测

§2.5 一元线性回归模型的置信区间与预测 多元线性回归模型的置信区间问题包括参数估计量的置信区间和被解释变量预测值的置信区间两个方面,在数理统计学中属于区间估计问题。所谓区间估计是研究用未知参数的点估计值(从一组样本观测值算得的)作为近似值的精确程度和误差范围,是一个必须回答的重要问题。 一、参数估计量的置信区间 在前面的课程中,我们已经知道,线性回归模型的参数估计量^ β是随机变量 i y 的函数,即:i i y k ∑=1 ?β,所以它也是随机变量。在多次重复抽样中,每次 的样本观测值不可能完全相同,所以得到的点估计值也不可能相同。现在我们用参数估计量的一个点估计值近似代表参数值,那么,二者的接近程度如何?以多大的概率达到该接近程度?这就要构造参数的一个区间,以点估计值为中心的一个区间(称为置信区间),该区间以一定的概率(称为置信水平)包含该参数。 即回答1β以何种置信水平位于() a a +-1 1?,?ββ之中,以及如何求得a 。 在变量的显著性检验中已经知道 ) 1(~^ ^ ---= k n t s t i i i βββ (2.5.1) 这就是说,如果给定置信水平α-1,从t 分布表中查得自由度为(n-k-1)的临界值2 αt ,那么t 值处在()2,ααt t -的概率是α-1。表示为 α αα-=<<-1)(2 2 t t t P 即

α ββαβα-=<-< -1)(2 ^ 2 ^ t s t P i i i α ββββαβα-=?+<

案例分析 一元线性回归模型

案例分析报告 (2014——2015学年第一学期) 课程名称:预测与决策 专业班级:电子商务1202 学号: 2204120202 学生姓名:陈维维 2014 年 11月 案例分析(一元线性回归模型) 我国城镇居民家庭人均消费支出预测 一、研究目的与要求 居民消费在社会经济的持续发展中有着重要的作用,居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。从理论角度讲,消费需求的具体内容主要体现在消费结构上,要增加居民消费,就要从研究居民消费结构入手,只有了解居民消费结构变化的趋势和规律,掌握消费需求的热点和发展方向,才能为消费者提供良好的政策环境,引导消费者合理扩大消费,才能促进产业结构调整与消费结构优化升级相协调,才能推动国民经济平稳、健康发展。例如,2008年全国城镇居民家庭平均每人每年消费支出为11242.85元,?最低的青海省仅为人均8192.56元,最高的上海市达人均19397.89元,上海是黑龙江的2.37倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定?

我研究的对象是各地区居民消费的差异。居民消费可分为城镇居民消费和农村居民消费,由于各地区的城镇与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城镇居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。 所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。 因为研究的目的是各地区城镇居民消费的差异,并不是城镇居民消费在不同时间的变动,所以应选择同一时期各地区城镇居民的消费支出来建立模型。因此建立的是2008年截面数据模型。影响各地区城镇居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。 为了与“城镇居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 以下是2008年各地区城镇居民人均年消费支出和可支配收入表

一元线性回归分析实验报告

一元线性回归在公司加班制度中的应用 院(系): 专业班级: 学号姓名: 指导老师: 成绩: 完成时间:

一元线性回归在公司加班制度中的应用 一、实验目的 掌握一元线性回归分析的基本思想和操作,可以读懂分析结果,并写出回归方程,对回归方程进行方差分析、显著性检验等的各种统计检验 二、实验环境 SPSS21.0 windows10.0 三、实验题目 一家保险公司十分关心其总公司营业部加班的程度,决定认真调查一下现状。经10周时间,收集了每周加班数据和签发的新保单数目,x 为每周签发的新保单数目,y 为每周加班时间(小时),数据如表所示 y 3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0 2. x 与y 之间大致呈线性关系? 3. 用最小二乘法估计求出回归方程。 4. 求出回归标准误差σ∧ 。 5. 给出0 β∧与1 β∧ 的置信度95%的区间估计。 6. 计算x 与y 的决定系数。 7. 对回归方程作方差分析。 8. 作回归系数1 β∧ 的显著性检验。 9. 作回归系数的显著性检验。 10.对回归方程做残差图并作相应的分析。

11.该公司预测下一周签发新保单01000 x=张,需要的加班时间是多少? 12.给出0y的置信度为95%的精确预测区间。 13.给出 () E y的置信度为95%的区间估计。 四、实验过程及分析 1.画散点图 如图是以每周加班时间为纵坐标,每周签发的新保单为横坐标绘制的散点图,从图中可以看出,数据均匀分布在对角线的两侧,说明x和y之间线性关系良好。 2.最小二乘估计求回归方程

用SPSS 求得回归方程的系数01,ββ分别为0.118,0.004,故我们可以写出其回归方程如下: 0.1180.004y x =+ 3.求回归标准误差σ∧ 由方差分析表可以得到回归标准误差:SSE=1.843 故回归标准误差: 2= 2SSE n σ∧-,2σ∧=0.48。 4.给出回归系数的置信度为95%的置信区间估计。 由回归系数显著性检验表可以看出,当置信度为95%时:

一元线性回归模型与多元线性回归模型对比

参数估计量的性质 线性性、无偏性、有效性 线性性、无偏性、有效性 参数估计量的概率分布 ) , (~?), (~?22 2002211σββσββ∑∑∑i i i x n X N x N --- 样本容量问题 ---- 样本容量n 必须不少于模型中解释变量的个数(包括常数项), 即1+≥k n 才能得到参数估计值,8-≥k n 时t 分布才比较稳定,能够进行变量的显著性检验,一般认为30≥n 活着至少 ()13+≥k n 时才能满足模型估计要求。如果样本量过小,则只 依靠样本信息就是无法完成估计的,需要用其她方法去估计。 统计检验 一元线性回归模型 多元线性回归模型 拟合优度检验 总离差平方与的分解 TSS=ESS+RSS TSS ESS R = 2,[]1,02 ∈R 越接近于1,拟合优度越高。 总离差平方与的分解 TSS=ESS+RSS TSS RSS TSS ESS R -== 12,(即总平方与中回归平方与的比例) []1,02∈R 对于同一个模型,2R 越接近于1,拟合优度越高。 ) 1/() 1(12---- =n TSS k n RSS R (调整的思路就是残差平方与 RSS 与总平方与 TSS 各自除以它们的自由度) 为什么要对2 R 进行调整?解释变量个数越多,它们对 Y 所能解释的部分越 大(即回归平方与部分越大),残差平方与部分越小,2R 越高,由增加解释变量引起的 2R 的增大与拟合好坏无关,因此在多元回归模型之间比较拟合优度, 2R 就不就是一 个合适的指标,必须加以调整。 方程总体显著性检验 ------ 目的:对模型中被解释变量与解释变量之间的线性关系在总体上就是否成立做出判断。 原假设 备择假设: 统计量的构造: 判断步骤:①计算F 统计量的值 ②给定显著性水平,查F 分布的临界值表获得 )

第三章一元线性回归分析

第三章 一元线性回归 一元线性回归分析的对象是两个变量的单向因果关系,模型的核心是两变量线性函数,分析方法是回归分析。一元线性回归是经典计量经济分析的基础。 第一节 一元线性回归模型 一、变量间的统计关系 社会经济现象之间的相互联系和制约是社会经济的普遍规律。在一定的条件下,一些因素推动或制约另外一些与之联系的因素发生变化。这种状况表明在经济现象的内部和外部联系中存在着一定的因果关系,人们往往利用这种因果关系来制定有关的经济政策,以指导、控制社会经济活动的发展。而认识和掌握客观经济规律就要探求经济现象间经济变量的变化规律。 互有联系的经济变量之间的紧密程度各不相同,一种极端的情况是一个变量能完全决 定另一个变量的变化。比如:工业企业的原材料消耗金额用y 表示,生产量用1x 表示,单位产量消耗用2x 表示,原材料价格用3x 表示,则有:123y x x x =。这里,y 与123,,x x x ,是一种确定的函数关系。 然而,现实世界中,还有不少情况是两个变量之间有着密切的联系,但它们并没有密切到由一个可以完全确定另一个的程度。 例如:某种高档费品的销售量与城镇居民的收入;粮食产量与施肥量之间的关系;储蓄额与居民的收入密切相关。 从图示上可以大致看出这两种关系的区别:一种是对应点完全落到一条函数曲线上;另一种是并不完全落在曲线上,而有的点在曲线上,有的点在曲线的两边。对于后者这种不能用精确的函数关系来描述的关系正是计量经济学研究的重要内容。 二、一元线性回归模型 1.模型的建立 一个例子,见教材66页: 总体回归模型:01i i i Y X ββε=++ 理解:(1)误差的随机性使得Y 和X 之间呈现一种随机的因果关系;(2)Y i 的取值由两部分组成,一类是系统内影响,一类是系统外影响。 样本回归直线:01i i Y X ββ=+ 样本回归模型:01i i i Y X e ββ=++ 2.模型的假设 (1) 误差项i ε的数学期望无论I 取什么值都是零。 (2) 误差项i ε的方差为常数2 σ (3) 误差项i ε对于I 的取值不同,不相关。 (4) 解释变量X 是确定性的变量,而非随机变量。 (5) 误差项i ε服从正态分布。

第三章-K元线性回归模型

第三章 K 元线性回归模型 一、填空题 1. 对于模型i ik k i i i u X X X Y +++++=ββββΛ22110,i=1,2,…,n ,一般经验认为,满足模型估计的基本要求的样本容量为_ _ 2. 对于总体线性回归模型i i i i i u X X X Y ++++=3322110ββββ,运用最小二乘法欲得到参数估计量,所要求的最小样本容量n 应满足 或至少_________。 3. 多元线性计量经济学模型的矩阵形式 ,对应的样本线性回归模型的矩阵形式 ,模型的最小二乘参数估计量 及其方差估计量 。 4. 总平方和可以分解为 回归平方和 和 残差平方和 ,可决系数为 。 5. 多元回归方程中每个解释变量的系数β(偏回归系数),指解释变量变化一个单位引起的被解释变量平均变化 β 个单位。 6. 线性模型的含义,就变量而言,指的是回归模型变量的 ;就参数而言,指的是回归模型中参数的 。通常线性回归模型指的是 。 二、问答题 1. 什么是多元回归模型?它与一元、二元回归模型有何区别? 2. 极大似然法(maximum likehood )的原理是什么? 3. 什么是拟合优度(R 2)检验?有什么作用? 指对样本回归直线与样本观测值之间的拟合程度的检验。 4. 可决系数R 2低的可能的原因是什么? 5. 多元回归的判断系数R 2具有什么性质?运用R 2时应注意什么问题? 6. 多元线性回归模型的基本假设是什么?试说明在证明最小二乘估计量的无偏性和有 效性的过程中,哪些基本假设起了作用? 7. 说明区间估计的含义。 三、实践题 1.下表给出三变量模型的回归结果: 方差来源 平方和(SS ) 自由度(d.f.) 均方差(MSS) 回归平方和(ESS) 65965 3 21988.33 残差平方和(RSS) 77 11 7 总平方和(TSS) 66042 14 4717.48

一元回归 案例分析

一元回归案例分析 第二章案例分析 一、研究的目的要求 居民消费在社会经济的持续发展中有着重要的作用。居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。改革开放以来随着中国经济的快速发展,人民生活水平不断提高,居民的消费水平也不断增长。但是在看到这个整体趋势的同时,还应看到全国各地区经济发展速度不同,居民消费水平也有明显差异。例如,2002年全国城市居民家庭平均每人每年消费支出为6029.88元, 最低的黑龙江省仅为人均4462.08元,最高的上海市达人均10464元,上海是黑龙江的2.35倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,居民的收入水平、就业状况、零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我们研究的对象是各地区居民消费的差异。居民消费可分为城市居民消费和农村居民消费,由于各地区的城市与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城市居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。所以模型的被解释变量Y选定为“城市居民每人每年的平均消费支出”。

因为研究的目的是各地区城市居民消费的差异,并不是城市居民消费在不同时间的变动,所以应选择同一时期各地区城市居民的消费支出来建立模型。因此建立的是2002年截面数据模型。 影响各地区城市居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。为了与“城市居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 从2002年《中国统计年鉴》中得到表2.5的数据: 表2.5 2002年中国各地区城市居民人均年消费支出和可支配收入地区城市居民家庭平均每人每年消费支出(元) 城市居民人均年可支配收入(元) Y X 10284.60 12463.92 北京 7191.96 9337.56 天津 5069.28 6679.68 河北 4710.96 5234.35 山西 4859.88 6051.06 内蒙古 5342.64 6524.52 辽宁 4973.88 6260.16 吉林 4462.08 6100.56 黑龙江 10464.00 13249.80 上海

案例分析一元线性回归模型

案例分析一元线性回归 模型 Revised as of 23 November 2020

案例分析报告 (2014——2015学年第一学期) 课程名称:预测与决策 专业班级:电子商务1202 学号: 02 学生姓名:陈维维 2014 年 11月 案例分析(一元线性回归模型) 我国城镇居民家庭人均消费支出预测 一、研究目的与要求 居民消费在社会经济的持续发展中有着重要的作用,居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。从理论角度讲,消费需求的具体内容主要体现在消费结构上,要增加居民消费,就要从研究居民消费结构入手,只有了解居民消费结构变化的趋势和规律,掌握消费需求的热点和发展方向,才能为消费者提供良好的政策环境,引导消费者合理扩大消费,才能促进产业结构调整与消费结构优化升级相协调,才能推动国民经济平稳、健康发展。例如,2008年全国城镇居民家庭平均每人每年消费支出为元,最低的青海省仅为人均元,最高的上海市达人均元,上海是黑龙江的倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定

我研究的对象是各地区居民消费的差异。居民消费可分为城镇居民消费和农村居民消费,由于各地区的城镇与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城镇居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。 所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。 因为研究的目的是各地区城镇居民消费的差异,并不是城镇居民消费在不同时间的变动,所以应选择同一时期各地区城镇居民的消费支出来建立模型。因此建立的是2008年截面数据模型。影响各地区城镇居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。 为了与“城镇居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 以下是2008年各地区城镇居民人均年消费支出和可支配收入表

第三章 多元线性回归模型(Stata)

一、邹式检验(突变点检验、稳定性检验) 1.突变点检验 1985—2002年中国家用汽车拥有量(t y ,万辆)与城镇居民家庭人均可支配收入(t x ,元),数据见表6.1。 表6.1 中国家用汽车拥有量(t y )与城镇居民家庭人均可支配收入(t x )数据 年份 t y (万辆) t x (元) 年份 t y (万辆) t x (元) 1985 28.49 739.1 1994 205.42 3496.2 1986 34.71 899.6 1995 249.96 4283 1987 42.29 1002.2 1996 289.67 4838.9 1988 60.42 1181.4 1997 358.36 5160.3 1989 73.12 1375.7 1998 423.65 5425.1 1990 81.62 1510.2 1999 533.88 5854 1991 96.04 1700.6 2000 625.33 6280 1992 118.2 2026.6 2001 770.78 6859.6 1993 155.77 2577.4 2002 968.98 7702.8 下图是关于t y 和t x 的散点图: 从上图可以看出,1996年是一个突变点,当城镇居民家庭人均可支配收入突破

4838.9元之后,城镇居民家庭购买家用汽车的能力大大提高。现在用邹突变点检验法检验1996年是不是一个突变点。 H0:两个字样本(1985—1995年,1996—2002年)相对应的模型回归参数相等H1:备择假设是两个子样本对应的回归参数不等。 在1985—2002年样本范围内做回归。 在回归结果中作如下步骤(邹氏检验): 1、Chow 模型稳定性检验(lrtest) 用似然比作chow检验,chow检验的零假设:无结构变化,小概率发生结果变化 * 估计前阶段模型 * 估计后阶段模型

第二章一元线性回归模型(Stata)

1. 中国居民人均消费模型 从总体上考察中国居民收入与消费支出的关系。表2.1给出了1990年不变价格测算的中国人均国内生产总值(GDPP )与以居民消费价格指数(1990年为100)所见的人均居民消费支出(CONSP )两组数据。 表2.1 中国居民人均消费支出与人均GDP (单位:元/人) 年份 CONSP GDPP 年份 CONSP GDPP 1978 395.8000 675.1000 1990 797.1000 1602.300 1979 437.0000 716.9000 1991 861.4000 1727.200 1980 464.1000 763.7000 1992 966.6000 1949.800 1981 501.9000 792.4000 1993 1048.600 2187.900 1982 533.5000 851.1000 1994 1108.700 2436.100 1983 572.8000 931.4000 1995 1213.100 2663.700 1984 635.6000 1059.200 1996 1322.800 2889.100 1985 716.0000 1185.200 1997 1380.900 3111.900 1986 746.5000 1269.600 1998 1460.600 3323.100 1987 788.3000 1393.600 1999 1564.400 3529.300 1988 836.4000 1527.000 2000 1690.800 3789.700 1989 779.7000 1565.900 1) 建立模型,并分析结果。 2)输出结果为: 对应的模型表达式为: 201.1070.3862CONSP GDPP =+ (13.51) (53.47) 2 0.9927,2859.23,0.55R F DW === 从回归估计的结果可以看出,拟合度较好,截距项和斜率项系数均通过了t 检验。

一元线性回归模型典型例题分析

第二章 一元线性回归模型典型例题分析 例1、令kids 表示一名妇女生育孩子的数目,educ 表示该妇女接受过教育的年数。生育率对教育年数的简单回归模型为 μββ++=educ kids 10 (1)随机扰动项μ包含什么样的因素?它们可能与教育水平相关吗? (2)上述简单回归分析能够揭示教育对生育率在其他条件不变下的影响吗?请解释。 例2.已知回归模型μβα++=N E ,式中E 为某类公司一名新员工的起始薪金(元),N 为所受教育水平(年)。随机扰动项μ的分布未知,其他所有假设都满足。如果被解释变量新员工起始薪金的计量单位由元改为100元,估计的截距项与斜率项有无变化?如果解释变量所受教育水平的度量单位由年改为月,估计的截距项与斜率项有无变化? 例3.对于人均存款与人均收入之间的关系式t t t Y S μβα++=使用美国36年的年度数据得如下估计模型,括号内为标准差: ) 011.0() 105.151(067.0105.384?t t Y S += 2R =0.538 023.199?=σ (1)β的经济解释是什么? (2)α和β的符号是什么?为什么?实际的符号与你的直觉一致吗?如果有冲突的话,你可以给出可能的原因吗? (3)对于拟合优度你有什么看法吗? (4)检验统计值? 例4.下列方程哪些是正确的?哪些是错误的?为什么? ⑴ y x t n t t =+=αβ12,,, ⑵ y x t n t t t =++=αβμ12,,, ⑶ y x t n t t t =++= ,,,αβμ12

⑷ ,,,y x t n t t t =++=αβμ12 ⑸ y x t n t t =+= ,,,αβ12 ⑹ ,,,y x t n t t =+=αβ12 ⑺ y x t n t t t =++= ,,,α βμ12 ⑻ ,,,y x t n t t t =++=αβμ12 其中带“^”者表示“估计值”。 例5.对于过原点回归模型i i i u X Y +=1β ,试证明 ∑= ∧ 2 21)(i u X Var σβ 例6、对没有截距项的一元回归模型 i i i X Y μβ+=1 称之为过原点回归(regression through the origin )。试证明 (1)如果通过相应的样本回归模型可得到通常的正规方程组 ∑∑==0 0i i i X e e 则可以得到1β的两个不同的估计值: X Y =1~β, ()()∑∑=2 1 ?i i i X Y X β。 (2)在基本假设0)(i =μE 下,1~ β与1?β均为无偏估计量。 (3)拟合线X Y 1??β=通常不会经过均值点),(Y X ,但拟合线X Y 1 ~~β=则相反。 (4)只有1?β是1β的OLS 估计量。 解: (1)由第一个正规方程 0=∑t e 得 0)~(1=-∑t t X Y β 或 ∑∑=t t X Y 1~ β

案例分析(一元线性回归模型)

案例分析报告(2014——2015学年第一学期) 课程名称:预测与决策 专业班级:电子商务1202 学号: 2204120202 学生姓名:陈维维 2014 年 11月

案例分析(一元线性回归模型) 我国城镇居民家庭人均消费支出预测 一、研究目的与要求 居民消费在社会经济的持续发展中有着重要的作用,居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。从理论角度讲,消费需求的具体内容主要体现在消费结构上,要增加居民消费,就要从研究居民消费结构入手,只有了解居民消费结构变化的趋势和规律,掌握消费需求的热点和发展方向,才能为消费者提供良好的政策环境,引导消费者合理扩大消费,才能促进产业结构调整与消费结构优化升级相协调,才能推动国民经济平稳、健康发展。例如,2008年全国城镇居民家庭平均每人每年消费支出为11242.85元,最低的青海省仅为人均8192.56元,最高的上海市达人均19397.89元,上海是黑龙江的2.37倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我研究的对象是各地区居民消费的差异。居民消费可分为城

镇居民消费和农村居民消费,由于各地区的城镇与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城镇居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。 所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。 因为研究的目的是各地区城镇居民消费的差异,并不是城镇居民消费在不同时间的变动,所以应选择同一时期各地区城镇居民的消费支出来建立模型。因此建立的是2008年截面数据模型。影响各地区城镇居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。 为了与“城镇居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 以下是2008年各地区城镇居民人均年消费支出和可支配收入表

第三章-一元线性回归

第三章 一元线性回归 第一部分 学习指导 一、本章学习目的与要求 1、掌握一元线性回归的经典假设; 2、掌握一元线性回归的最小二乘法参数估计的计算公式、性质和应用; 3、理解拟合优度指标:决定系数R 2 的含义和作用; 4、掌握解释变量X 和被解释变量Y 之间线性关系检验,回归参数0β和1β的显著性检验 5、了解利用回归方程进行预测的方法。 二、本章内容提要 (一)一元线性回归模型的假设条件 (1)E (i ε)=0 (i =1,2,……,n ),即随机误差项分布的均值为零。 (2)Var (i ε)=2σ (i =1,2, ……,n ),即随机误差项方差恒定,称为同方差。 (3)C o v (i ε,j ε)=0,(任意i ≠j ,i ,j =1,2, ……,n ),即随机误差项之间互不 相关。 (4)解释变量X 是非随机的,换句话说,在重复抽样下,X 的取值是确定不变的。 (5)i ε~N (0,2σ),即随机误差项服从均值为0,方差为2σ的正态分布。 前四个假定就是著名的高斯—马尔科夫假定或者称为回归分析的经典假定。 (二)一元线性回归最小二乘法估计参数的计算公式及性质 1、一元线性回归最小二乘法估计参数的计算公式为: ()()()112101???n i i xy i n xx i i x x y y S S x x y x βββ==? --??==??-??=-??∑∑ 2、一元线性回归最小二乘法估计参数的性质与估计量的性质 (1)残差的总和等于0,即 ∑=n i i 1? ε=0。 (2)残差的平方和最小,即 ∑=n i i 1 2? ε最小。 (3)被解释变量Y 的实际观测值i y 之和等于其拟合值?i y 之和,从而i y 的均值y 与i y ?的均值y ?也相等。 (4)残差?i ε 与?i y 互不相关,即1 ??0n i i i y ε==∑。 (5)回归直线通过解释变量X 和被解释变量Y 的均值点(,)x y 。 3、OLS 法得到的估计量的性质 (1) 线性性,即参数估计量是关于被解释变量Y 取值的线性函数。 (2)无偏性,即参数估计量的均值等于参数本身,也就是E (1?β)=1 β,E (0?β)=0β (3)方差最小性,即在参数的所有线性无偏估计中,OLS 估计量是方差最小的。该性质也称为方差有效性。 由(1)、(2)、(3)条性质知,根据最小二乘法得到的参数估计量是最优线性无偏估计量(Best Linear Unbias Estimator ),简称BLUE 估计量。 (三)拟合优度指标:决定系数R 2 1、总离差平方和的分解(TSS )

相关文档
最新文档