第八章 单方程回归模型的几个专题

第八章  单方程回归模型的几个专题
第八章  单方程回归模型的几个专题

第八章 单方程回归模型的几个专题

8.1虚拟变量(dummy variable )

8.1.1 概念与用作

在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质等因素的影响。这些因素也应该包括在模型中。为此人们采取了一种构造人工变量的方法,将这些定性变量进行量化,使其能与数值变量一样在回归模型中得以应用。

构造的规则是当某种属性存在时,人工变量取值为1;当某种属性不存在时时,取值为0。在计量经济学中,我们把反映定性因素变化,取值为0或1的人工变量称为虚拟变量。习惯上用D 表示。如:

引入虚拟变量的作用主要有三个:1)可以描述定性因素的影响;2)能够正确反映经济变量的相互关系,提高模型的精度;3)便于处理异常数据。当样本资料中存在异常数据时,一般有三种处理方式。一是直接剔除;二是平滑掉;三是设置虚拟变量。

8.1.2 虚拟变量的设置 1、设置规则

1)一个因素多个属性:若定性因素有M 个不同的属性,或相互排斥的类型,在模型中则只能引入M-1个虚拟变量,否则会引起完全多重共线性。

2)多个因素多个属性:每个因素的引入方法均按上述原则。 2、引入方式:

1)加法方式(截距移动) 设有模型,

y t = β0 + β1 x t + β2D + u t ,

其中y t ,x t 为定量变量;D 为定性变量。当D = 0 或1时,上述模型可表达为,

y t =??

?=+++=++1

)(0

12010D u x D u x t

t t t βββββ 020

40

60

20

40

60

X Y

图8.1 测量截距不同

D = 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若β2显著不为零,说明截距不同;若β2为零,说明这种分类无显著性差异。

例:中国成年人体重y (kg )与身高x (cm )的回归关系如下:

–105 + x D = 1 (男)

y = - 100 + x - 5D =

– 100 + x D = 0 (女)

注意:

① 若定性变量含有m 个类别,应引入m -1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap )。

② 关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。 ③ 定性变量中取值为0所对应的类别称作基础类别(base category )。

④ 对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如:

1 (大学) D = 0 (中学) -1 (小学)。

例1:市场用煤销售量模型(file: Dummy1)

我国市场用煤销量的季节性数据(1982-1988,《中国统计年鉴》1987,1989)见下图与表。由于受取暖用煤的影响,每年第四季度的销售量大大高于其它季度。鉴于是季节数据可设三个季节变量如下:

1 (4季度) 1 (3季度) 1 (2季度) D 1 = D

2 = D

3 =

0 (1, 2, 3季度) 0 (1, 2, 4季度) 0 (1, 3, 4季度)

β0

β0+β2

D = 1 D =0

2500

300035004000450050005500

82

83

84

85

86

87

88

Y

2500

30003500400045005000550082838485868788

Y

2731.03+57.15*T

全国按季节市场用煤销售量数据(file: Dummy1)

数据来源:《中国统计年鉴》1989。注:以季节数据D 1为例,EViews 命令是D1= @seas(4)。

以时间t 为解释变量(1982年1季度取t = 1)的煤销售量(y )模型如下:

y = 2431.20 + 49.00 t + 1388.09 D 1 + 201.84 D 2 + 85.00 D 3 (1)

(26.04) (10.81) (13.43) (1.96) (0.83) R 2 = 0.95, DW = 1.2, s.e. = 191.7, F=100.4, T =28, t 0.05 (28-5) = 2.07

由于D 2,D 3的系数没有显著性,说明第2,3季度可以归并入基础类别第1季度。于是只考虑加入一个虚拟变量D 1,把季节因素分为第四季度和第一、二、三季度两类。从上式中剔除虚拟变量D 2,D 3,得煤销售量(y )模型如下:

y = 2515.86 + 49.73 t + 1290.91 D 1 (2)

(32.03 (10.63) (14.79)

R 2 = 0.94, DW = 1.4, s.e. = 198.7, F = 184.9, T =28, t 0.05 (25) = 2.06

进一步检验斜率是否有变化,在上式中加入变量t D 1,

y = 2509.07 + 50.22 t + 1321.19 D 1 - 1.95 t D 1 (3)

(28.24) (9.13) (6.85) (-0.17)

R 2 = 0.94, DW = 1.4, s.e. = 202.8, F = 118.5, T =28, t 0.05 (24) = 2.06

由于回归系数 -1.95所对应的t 值是 -0.17,可见斜率未发生变化。因此以模型 (2) 作为最后确立的模型。

若不采用虚拟变量,得回归结果如下,

y = 2731.03 + 57.15 t (4)

(11.6) (4.0)

R 2 = 0.38, DW = 2.5, s.e. = 608.8, T = 28, t 0.05 (26) = 2.06

与(2)式相比,回归式(4)显得很差。

2、乘法方式(斜率变化)

以上只考虑定性变量影响截距,未考虑影响斜率,即回归系数的变化。当需要考虑时,可建立如下模型:

y t = β0 + β1 x t + β2 D + β3 x t D + u t ,

其中x t 为定量变量;D 为定性变量。当D = 0 或1时,上述模型可表达为,

y t =??

?=++++=++1

)()(0

312010D u x D u x t

t t

t ββββββ 通过检验 β3是否为零,可判断模型斜率是否发生变化。

20

40

60

80

100

20

40

60

X

Y

01020

3040506070

20

40

60

T Y

图8.5 情形1(不同类别数据的截距和斜率不同) 图8.6 情形2(不同类别数据的截距和斜率不同)

例2:用虚拟变量区别不同历史时期(file:dummy2)

中国进出口贸易总额数据(1950-1984)见上表。试检验改革前后该时间序列的斜率是否发生变化。定义虚拟变量D 如下

0 (1950 - 1977)

D =

1 (1978 - 1984)

中国进出口贸易总额数据(1950-1984) (单位:百亿元人民币)

年 trade time D time D 年

trade time D time D 1950 0.415 1 0 0 1968 1.085 19 0 0 1951 0.595 2 0 0 1969 1.069 20 0 0 1952 0.646 3 0 0 1970 1.129 21 0 0 1953 0.809 4 0 0 1971 1.209 22 0 0 1954 0.847 5 0 0 1972 1.469 23 0 0 1955 1.098 6 0 0 1973 2.205 24 0 0 1956 1.087 7 0 0 1974 2.923 25 0 0 1957 1.045 8 0 0 1975 2.904 26 0 0 1958 1.287 9 0 0 1976 2.641 27 0 0 1959 1.493 10 0 0 1977 2.725 28 0 0 1960 1.284 11 0 0 1978 3.550 29 1 29 1961 0.908 12 0 0 1979 4.546 30 1 30 1962 0.809 13 0 0 1980 5.638 31 1 31 1963 0.857 14 0 0 1981 7.353 32 1 32 1964 0.975 15 0 0 1982 7.713 33 1 33 1965 1.184 16 0 0 1983 8.601 34 1 34 1966 1.271 17 0 0 1984 12.010 35 1 35 1967 1.122 18 0 0

以时间time 为解释变量,进出口贸易总额用trade 表示,估计结果如下: trade = 0.37 + 0.066 time - 33.96D + 1.20 time D

(1.86) (5.53) (-10.98) (12.42)

0.37 + 0.066 time (D = 0, 1950 - 1977) =

- 33.59 + 1.27 time (D = 1, 1978 - 1984)

上式说明,改革前后无论截距和斜率都发生了变化。进出口贸易总额的年平均增长量扩大了18倍。

例3:香港季节GDP 数据(单位:千亿港元)的拟合(虚拟变量应用, file:dummy6)

1.0

1.5

2.02.5

3.03.5

4.0

90919293949596979899000102

GDP

1.0

1.5

2.02.5

3.03.5

4.0

90919293949596979899000102GDP

1.6952+0.0377*T

1990~1997年香港季度GDP 呈线性增长。1997年由于遭受东南亚金融危机的影响,经济发展处于停滞状态,1998~2002年底GDP 总量几乎没有增长(见上图)。对这样一种先增长后停滞,且含有季节性周期变化的过程简单地用一条直线去拟合显然是不恰当的。为区别不同季节,和不同时期,定义季节虚拟变量D2、D3、D4和区别不同时期的虚拟变量DT 如下(数据见附录):

1 (1998:1~2002:4) DT =

0 (1990:1 ~1997:4)

得估计结果如下:

GDP t = 1.1573 + 0.0668 t + 0.0775 D 2 + 0.2098 D 3 + 0.2349 D 4+ 1.8338 DT - 0.0654 DT t

(50.8) (64.6) (3.7) (9.9) (11.0) (19.9) (-28.0)

R 2 = 0.99, DW = 0.9, s.e. = 0.05, F=1198.4, T =52, t 0.05 (52-7) = 2.01

对于1990:1 ~1997:4 GDP t = 1.1573 + 0.0668 t + 0.0775 D 2 + 0.2098 D 3 + 0.2349 D 4 对于1998:1~2002:4

GDP t = 2.9911 + 0.0014 t + 0.0775 D 2 + 0.2098 D 3 + 0.2349 D 4

如果不采用虚拟变量拟合效果将很差。

1 第4季度

0 其它季度

GDP t = 1.6952 + 0.0377 t

(20.6) (13.9)

R 2 = 0.80, DW = 0.3, T =52, t 0.05 (52-2) = 2.01 例:P262略

8.1.3 虚拟变量的特殊应用 1、检验模型的稳定性

设根据同一总体两个样本的估计回归模型分别为: 样本1:1t o t t y b b x u =++ 样本2:1t o t t y a a x u =++

设置虚拟变量:

合并样本,估计模型:00111()()t o t t t t y b a b D b x a b XD u =++++-+

其中:t t t XD x D =?,利用t 检验判断两个虚拟变量系数的显著性,可以得到四种检验结果:

1)两个系数均等于零,表明两个回归模型之间的没有显著差异。

2)第一个系数不等于零,第二个系数等于零,说明截距不同,称之为“平行回归”。 3)第一个系数等于零,第二个系数不等于零,说明斜率不同,称之为“汇合回归”。 4)两个系数均不等于零,表明两个模型完全不同,称之为相异回归。 2、分段回归 如:例2。

3、混合回归(即综合使用时序数据和截面数据)

首先检验用不同截面的数据样本建立的模型是否稳定,如果模型稳定,则可合并样本,综合使用时序数据和截面数据。

8.2 模型的设定误差

8.2.1 判断经济模型优劣的标准 1、建模过程:

1)根据经济理论或实践经验,选择变量与函数形式,构建理论模型。

2)依据研究对象的性质,对变量、参数及随机误差项做出相应的先验假定,作为模型检验的标准。

3)收集样本,估计参数。

4)对模型进行理论检验、统计检验及计量经济学准则检验,如果满足先验假设,接受模型,否则应当放弃。

2、判断计量经济模型优劣的基本准则 1)模型就力求简单 2)模型可识别

3)具有较高的按按拟合集成度 4)与理论相一致 5)具有较好的超样本功能 8.2.2 模型设定误差的类型与后果 1、模型遗漏了重要解释变量

如果模型遗漏了重要解释变量,参数的估计值将是有偏的,随机误差的估计值也是有偏的,应用惯常的检验程序,对参数进行显著性检验,容易得出错误的结论,检验的结果不可靠。可以说如果遗漏的重要解释变量的模型,将是一个不可能的模型。

例如:设正确的回归模型为: 122t o t t y b b x b x u =+++ (1) 我们实际采用的模型为:1t o t t y a a x v =++ (2)

假定模型满足古典假定,则参数的OLS 估计值为:112

1()()

?()t t t x x y y a x x --=-∑∑

将正确模型代入上式得:

[]

111122212

1()()()()?()

t t t t t

x x b x x b x x u u a

x

x --+-+-=-∑∑

=122

112

2

2

11()()()()()()

t

t t

t t

t

x x x x x x u u b b x x x x ----++--∑∑∑∑

取期望,考虑x1为非随机变量,有

122121121

2

2

11()()cov(,)

?()()

var()

t

t

t

x x x x x x E a

b b b b

x x x --=+=+-∑∑ 说明:1)如果遗漏的变量与解释变量相关,即12cov(,)x x 非零,那么1?a

是有偏的,且不一致的。

2)如果遗漏的变量与解释变量无关,1?a

是无偏的,但0?a 是有偏的。 3)随机误差项的方差估计值,也是有偏的。在同样的样本下,(1)、(2)式给出的样本残差不会相同,因此,如果(1)式给出的正确的估计值,(2)式的估计值应是有偏的。

4)参数估计量1?a 的方差是1?b 方差的有偏估计: 2

12

1?var()()

t

a x

x σ=-∑

[]2

1

2

1121?var()()1cov(,)/var()t

b x x x x x σ=--∑

如前所述1

?var()b 是无偏的,即使两变量不相关,由于两式的残差估计值不相同,1

?var()b ≠1?var()a 。因此,惯常的t 检验失效。 2、模型包含无关解释变量

如果模型包含无关解释变量,参数的估计值是无偏的、一致、不是有效的估计值,这个模型也可以正确估计随机误差项,惯常的检验结果也是有效的,只是参数估计量方差增大,精确度降低。

例如:设正确的回归模型为: 1t o t t y b b x u =++ (1) 我们实际采用的模型为:122t o t t y a a x a x v =+++ (2) 采用OLS 法对(2)进行参数估计,我们可以得到:

11?()E a

b = []

2

12

1121?var()()1cov(,)/var()t

a

x

x x x x σ=--∑

由于可知:

1) (2)式的参数估计量是无偏的,一致的估计量 2) 同遗漏重要解释变量一样,因为:

[]

2

2

11

2

2

11211??var()var()()1cov(,)/var()()

t

t

a

b x

x x x x x

x σσ=≠

=---∑∑是无效估计量。 3、模型的函数形式设定错误的后果

如果将复杂的函数形式设成简单线性相关形式,其结果与遗漏了重要解释变量相同。例如:将()t t t y f x u =+设成01t t t y x u ββ=++.我们将()t t t y f x u =+在x 平均值处展开泰勒级数,整理得:

0122t t t y x x u βββ=+++

+

式中:2

0()`()``()2!

x f x xf x f x β=-+

-

2

1`()``()```()2!

x f x xf x f x β=-+

-

其他类推。

可见真实的回归模型实质上是一个关于X 的高次方程,误将他设成线性函数,实质上就是遗漏了方程中的二次项和其余的高次项。 8.2.3 模型设定误差的检验 1、包含无关变量的检验

如解释变量与被解释变量无关,其参数应该为零。因此,如果某解释变量的和t 统计值不显著,其解释变量则应为无关变量,应从模型中剔除。

如果要检验X2、X3是否同时应包括在模型中,只需检验联合假设H0:230ββ==即可,第三章已介绍了适用的F 检验。

2、遗漏重要解释变量或采取错误函数形式的的检验

如果遗漏的重要解释变量或采取错误形式,模型必然不能对经济现象作出很好的解释。反映在检验结果上,也一定不显著,比如较大的残差,较小的决定系数和DW 统计值。因此可用这些结果对其进行判断。 1)应用随机误差项的估计值进行检验 步骤:

第一步:计算残差。

第二步:绘制残差与时间或某解释变量的散点图。

第三步:判断。如果残差呈现有规律的变动,则说明有可能遗漏了重要变量。 2)应用DW 统计量进行检验

如果遗漏的重要解释变量,则残差中应包括这个相关变量,残差就应呈现相关性。判断方法为

DW <du ,存在正相关。遗漏重要解释变量。 DW >(4-du ),存在负相关,遗漏重要解释变量。 du <DW <(4-du ),不存在相关,没有遗漏重要解释变量。 8.3 随机解释变量问题

8.3.1随想解释变量问题的概念与来源

单方程计量经济学模型假定解释变量为确定性变量,并且与随机误差项不相关,违背这一基本假定的问题被称为随机解释变量问题。

在实际经济问题中,经济变量往往都具有随机性。但是在单方程计量经济学模型中,凡是外生变量都被认为是确定性变量。于是随机解释变量问题主要表现于用滞后被解释变量作为解释变量。经济活动的连贯性,使得这种现象大量存在。 例:固定资产投资与国民经济收入的模型:0121t t t t I Y I u βββ-=+++ 消费与收入之间关系的模型为:0121t t t t C Y C u βββ-=+++ 8.3.2 随机解释变量问题对参数估计的影响 以一元线性回归模型为例,来说明问题。 设一元线性回归模型:

01t t t y x u ββ=++ 8.3.1

满足除非随机解释变量外的所有古典假设。模型中解释变量为随机变量时,其与随机误差项之间的关系有三种:

1)当随机解释变量与随机误差项不相关,即()0t t E x u =。则最小二乘估计的参数仍是无偏估计。

以1?β为例:11?t t k u ββ=+∑ 利用t k ∑=0,可得:

11?()t t k u u ββ=+-∑,即:211?()()/()t t t x x u u x x ββ=+---∑∑ 进行离差变换:t t x x x =-,t t u u u =-得:

211

?/t t t x u x ββ=+∑∑ 取期望得:211

?()()/t t t E E x u x ββ=+∑∑, 由于 ()0t t E x u =,所以:()0t t E x u =,可得:11

?()E ββ=。 2)当随机解释变量与随机误差项在小样本下相关,即()0t t E x u ≠,在大样本下渐近无关,即lim /cov(,)0t t t t p x u n x u ==∑,则在小样本下是有偏的,在大样本是一致的。

由于在小样本下()0t t E x u ≠,所以2111?()()/t t t E E x u x βββ=+≠∑∑,即是有偏估计量。

对上式取概率极限,利用渐近无关性lim /cov(,)0t t t t p x u n x u ==∑,可得

2211

1111?lim lim /lim /t t t t t t p p x u x p x u x n

n ββββ=+=+=∑∑∑∑ 即在大样本下是一致的估计量。

3)当随机解释变量与随机误差项相关,并且lim /cov(,)0t t t t p x u n x u =≠∑,则参数的最小二乘估计是有偏的,且是不一致的。

2211

111?lim lim /lim /t t t t t t p p x u x p x u x n n βββ=+=+∑∑∑∑ 因为:lim /cov(,)t t t t p x u n x u =∑,21

lim var()t t p x x n

=∑

所以有:11?lim cov(,)/var()t t t

p x u x βββ=+≠ 由上面的分析可以看出,当随机解释变量与随机误差项相关时,由于模型参数估计值产生偏误,造成拟合优度检验失准、F 检验失效,t 统计失去意义。 8.3.3 随机解释变量的修正方法:工具变量法

思路是,当随机解释变量与随机误差项相关时,则寻找另一个变量,该变量与随机解释变量高度相关,但与随机误差项不相关,称为工具变量,用其替代随机解释变量。 1、工具变量的要求

作为工具变量,必须满足以下四个条件:

1)必须是有明确经济含义的外生变量。

2)与随机解释变量高度相关,而又与随机误差项不相关。 3)与其他解释变量也不相关。 4)与其他工具变量不相关。 2、工具变量的应用

工具变量对随机解释变量的替代不是完全“替代”,只是最小二乘法的正规方程组中用工具变量对随机解释变量进行部分替代。

如一元回归模型:01t t t y x u ββ=++,如果:()0t t E x u ≠,即0t t x u ≠∑ 用OLS 得到的正规方程组:

01t

t y

n x ββ=+∑∑= 0

201t t

t t x y x x ββ=+∑∑∑

设t x 的工具变量为t z ,则应满足:0t t z u =∑

将01()t t t u y x ββ=-+,代入上式得:01t t t t t y z z x z ββ=+∑∑∑ 替换下正规方程组中的第二个方程,可得新方程组:

01t

t y

n x ββ=+∑∑ 01t t

t t t y z

z x z ββ=+∑∑∑

求解,可得参数估计值:

1()()?()()t t t t

z z y y z z x x β--=

--∑∑ 01

??y x ββ=- 因此工具变量的基本原理在于:用工具变量代替随机解释变量,从而运用0t t z u =∑克服0t t x u ≠∑产生的对模型参数估计的不利影响。容易证明,参数工具变量估计是有偏的,一致的估计量。

[]

11

()()

()()()?()()

()()

t t t

t t t

t t

t z z y y z

z x x u u z

z x x z

z x x ββ----+-==

----∑∑∑∑

=1()()()()

t t t

t z z u u z

z x x β--+

--∑∑

两过取概率极限得:()

11

11

lim

()()?lim 1

lim ()()

t t t t P z z u u n P P z z x x n

βββ--=+=--∑∑,因为 1

lim ()()cov(,)0t t t t P z z u u z u n --==∑

1

lim ()()cov(,)0t t t t P z z x x x z n

--=≠∑

但在小样本下,是有偏的。 3、工具变量的缺陷

1)由于工具变量有严格的要求,要寻找一个合适的工具变量不容易。

2)所选择的工具变量不同,模型的参数估计值不同,出现随意性,但评优标准很难掌握。

3)使用工具变量后,有可能产生较高的标准差,不能保证参数估计值的渐近方差一定达到最小。

8.4 变量的测量误差

当变量存在测量误差,特别是当解释变量存在测量误差时,会把这种误差叠加到被解释变量上,从而导致回归系数的OLS 估计量失去一致性,低估真正的回归参数值。

→T l i m p β

?≠ β. 因为β

?是渐近偏倚的,所以也是不一致的。 检验方法:

豪斯曼(Hausman )1978年提出的如下方法:

1、 对所研究的回归模型,无论是否存在观测误差,先采用OLS 法得到回归参数估计量。

2、 对可能存在观测误差的解释变量,选择工具变量,将可能存在观测误差的解释变量对工具变量进行回归,并获得残差ω。

3、 将回归残差ω加放(1)步中的回归表达式,再次进行OLS 估计,得ω的参数

估计值?ω及假设检验结果;

4、若?ω显著,则的确存在观测误差,反之则相反。

解决办法:

目前计量学家们还没有有效的解决办法。

案例分析:P283

线性回归方程的求法(需要给每个人发)

耿老师总结的高考统计部分的两个重要公式的具体如何应用 第一公式:线性回归方程为???y bx a =+的求法: (1) 先求变量x 的平均值,既1231()n x x x x x n = +++???+ (2) 求变量y 的平均值,既1231()n y y y y y n =+++???+ (3) 求变量x 的系数?b ,有两个方法 法112 1()()?()n i i i n i i x x y y b x x ==--=-∑∑(题目给出不用记忆)[]112222212()()()()...()()()()...()n n n x x y y x x y y x x y y x x x x x x --+--++--=??-+-++-?? (需理解并会代入数据) 法21 2 1()()?()n i i i n i i x x y y b x x ==--=-∑∑(题目给出不用记忆) []1122222212...,...n n n x y x y x y nx y x x x nx ++-?=??+++-??(这个公式需要自己记忆,稍微简单些) (4) 求常数?a ,既??a y bx =- 最后写出写出回归方程???y bx a =+。可以改写为:??y bx a =-(?y y 与不做区分) 例.已知,x y 之间的一组数据: 求y 与x 的回归方程: 解:(1)先求变量x 的平均值,既1(0123) 1.54x = +++= (2)求变量y 的平均值,既1(1357)44 y =+++= (3)求变量x 的系数?b ,有两个方法

法1?b = []11223344222212342222()()()()()()()()()()()()(0 1.5)(14)(1 1.5)(34)(2 1.5)(54)(3 1.5)(74)57(0 1.5)(1 1.5)(2 1.5)(3 1.5)x x y y x x y y x x y y x x y y x x x x x x x x --+--+--+--=??-+-+-+-??--+--+--+--==??-+-+-+-?? 法2?b =[][]11222222222212...011325374 1.5457 ...0123n n n x y x y x y nx y x x x nx ++-??+?+?+?-??==????+++-+++???? (4)求常数?a ,既525??4 1.577a y bx =-=-?= 最后写出写出回归方程525???77 y bx a x =+=+ 第二公式:独立性检验 两个分类变量的独立性检验: 注意:数据a 具有两个属性1x ,1y 。数 据b 具有两个属性1x ,2y 。数据c 具有两个属性2x ,2y 数据d 具有两个属性2x ,2y 而且列出表格是最重要。解题步骤如下 第一步:提出假设检验问题 (一般假设两个变量不相关) 第二步:列出上述表格 第三步:计算检验的指标 2 2 ()()()()()n ad bc K a b c d a c b d -=++++ 第四步:查表得出结论 例如你计算出2K =9大于表格中7.879,则查表可得结论:两个变量之间不相关概率为0.005,或者可以肯定的说两个变量相关的概率为0.995.或095.50 例如你计算出2K =6大于表格中5.024,则查表可得结论:两个变量之间不相关概率为0.025,或者可以肯定的说两个变量相关的概率为0.995.或097.50 上述结论都是概率性总结。切记事实结论。只是大概行描述。具体发生情况要和实际联系!! !!

第二章经典单方程计量经济学模型:一元线性回归模型

第二章经典单方程计量经济学模型:一元线性回归模型 一、内容提要 本章介绍了回归分析的基本思想与基本方法。首先,本章从总体回归模型与总体回归函数、样本回归模型与样本回归函数这两组概念开始,建立了回归分析的基本思想。总体回归函数是对总体变量间关系的定量表述,由总体回归模型在若干基本假设下得到,但它只是建立在理论之上,在现实中只能先从总体中抽取一个样本,获得样本回归函数,并用它对总体回归函数做出统计推断。 本章的一个重点是如何获取线性的样本回归函数,主要涉及到普通最小二乘法(OLS)的学习与掌握。同时,也介绍了极大似然估计法(ML)以及矩估计法(MM)。 本章的另一个重点是对样本回归函数能否代表总体回归函数进行统计推断,即进行所谓的统计检验。统计检验包括两个方面,一是先检验样本回归函数与样本点的“拟合优度”,第二是检验样本回归函数与总体回归函数的“接近”程度。后者又包括两个层次:第一,检验解释变量对被解释变量是否存在着显著的线性影响关系,通过变量的t检验完成;第二,检验回归函数与总体回归函数的“接近”程度,通过参数估计值的“区间检验”完成。 本章还有三方面的内容不容忽视。其一,若干基本假设。样本回归函数参数的估计以及对参数估计量的统计性质的分析以及所进行的统计推断都是建立在这些基本假设之上的。其二,参数估计量统计性质的分析,包括小样本性质与大样本性质,尤其是无偏性、有效性与一致性构成了对样本估计量优劣的最主要的衡量准则。Goss-markov定理表明OLS估计量是最佳线性无偏估计量。其三,运用样本回归函数进行预测,包括被解释变量条件均值与个值的预测,以及预测置信区间的计算及其变化特征。 二、典型例题分析 例1、令kids表示一名妇女生育孩子的数目,educ表示该妇女接受过教育的年数。生育率对教育年数的简单回归模型为 β+ μ β kids =educ + 1

(完整版)第二章(简单线性回归模型)2-2答案

2.2 简单线性回归模型参数的估计 一、判断题 1.使用普通最小二乘法估计模型时,所选择的回归线使得所有观察值的残差和达到最小。(F) 2.随机扰动项和残差项是一回事。(F ) 3.在任何情况下OLS 估计量都是待估参数的最优线性无偏估计。(F ) 4.满足基本假设条件下,随机误差项i μ服从正态分布,但被解释变量Y 不一定服从正态分 布。 ( F ) 5.如果观测值i X 近似相等,也不会影响回归系数的估计量。 ( F ) 二、单项选择题 1.设样本回归模型为i 01i i ??Y =X +e ββ+,则普通最小二乘法确定的i ?β的公式中,错误的是( D )。 A . ()() () i i 1 2 i X X Y -Y ?X X β--∑∑= B .() i i i i 12 2i i n X Y -X Y ? n X -X β∑∑∑∑∑= C .i i 122i X Y -nXY ?X -nX β∑∑= D .i i i i 12x n X Y -X Y ?βσ∑∑∑= 2.以Y 表示实际观测值,?Y 表示回归估计值,则普通最小二乘法估计参数的准则是使( D )。 A .i i ?Y Y 0∑(-)= B .2 i i ?Y Y 0∑ (-)= C .i i ?Y Y ∑(-)=最小 D .2 i i ?Y Y ∑ (-)=最小 3.设Y 表示实际观测值,?Y 表示OLS 估计回归值,则下列哪项成立( D )。 A .?Y Y = B .?Y Y = C .?Y Y = D .?Y Y = 4.用OLS 估计经典线性模型i 01i i Y X u ββ+=+,则样本回归直线通过点( D )。 A .X Y (,) B . ?X Y (,) C .?X Y (,) D .X Y (,) 5.以Y 表示实际观测值,?Y 表示OLS 估计回归值,则用OLS 得到的样本回归直线i 01i ???Y X ββ+=满足( A )。 A .i i ?Y Y 0∑(-)= B .2 i i Y Y 0∑ (-)= C . 2 i i ?Y Y 0∑ (-)= D .2i i ?Y Y 0∑ (-)= 6.按经典假设,线性回归模型中的解释变量应是非随机变量,且( A )。 i u i e

【精品】第八章单方程回归模型的几个专题

第八章单方程回归模型的几个专题 8.1虚拟变量(dummyvariable) 8。1。1概念与用作 在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质等因素的影响.这些因素也应该包括在模型中。为此人们采取了一种构造人工变量的方法,将这些定性变量进行量化,使其能与数值变量一样在回归模型中得以应用. 构造的规则是当某种属性存在时,人工变量取值为1;当某种属性不存在时时,取值为0。在计量经济学中,我们把反映定性因素变化,取值为0或1的人工变量称为虚拟变量。习惯上用D表示。如: 引入虚拟变量的作用主要有三个:1)可以描述定性因素的影响;2)能够正确反映经济变量的相互关系,提高模型的精度;3)便于处理异常数据。当样本资料中存在异常数

据时,一般有三种处理方式。一是直接剔除;二是平滑掉;三是设置虚拟变量. 8.1。2虚拟变量的设置 1、设置规则 1)一个因素多个属性:若定性因素有M个不同的属性,或相互排斥的类型,在模型中则只能引入M-1个虚拟变量,否则会引起完全多重共线性。 2)多个因素多个属性:每个因素的引入方法均按上述原则。 2、引入方式: 1)加法方式(截距移动) 设有模型, y t=β0+β1x t+β2D+u t, 其中y t,x t为定量变量;D为定性变量.当D=0或1时,上述模型可表达为,

y t =?? ?=+++=++1 )(0 12010D u x D u x t t t t βββββ 020 40 60 20 40 60 X Y 图8。1测量截距不同 D =1 或0 表示某种特征的有无。反映在数学上是截距不同的两个函数。若β2显著不为零,说明截距不同;若β2为零,说明这种分类无显著性差异。 例:中国成年人体重y (kg)与身高x (cm) 的回归关系如下: –105+xD =1(男) y =—100+x —5D = –100+xD =0(女) 注意: ①若定性变量含有m 个类别,应引入m -1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummyvariabletrap )。 ②关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果. ③定性变量中取值为0所对应的类别称作基础类别(basecategory)。 ④对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如: 1(大学) D =0(中学) -1(小学)。 例1:市场用煤销售量模型(file:Dummy1) 我国市场用煤销量的季节性数据(1982-1988,《中国统计年鉴》1987,1989)见下图与表。由于受取暖用煤的影响,每年第四季度的销售量大大高于其它季度。鉴于是季节数据可设三个季节变量如下: 1(4季度)1(3季度)1(2季度) D 1=D 2=D 3= 0(1,2,3季度)0(1,2,4季度)0(1,3,4季度) β0 β0+β2 D =1 D =0

线性回归方程公式证明

112233^ ^^^2 211(,),(,),(,)(,)1,2,3),()()n n i i i i i i n i i i i i i n x y x y x y x y y bx a x i n y bx a y y y a b Q y y bx a y ===+==+-=-=+-∑L L 设有对观察值,两变量符合线生回归设其回归方程为:,把自变量的某一观测值代(入入回归方程得:,此值与实际观测值存在一个差值,此差值称为剩余或误差。现要决定取何值时,才能够使剩余的平方和有最小值,即求11 2 21122 221 1111 22111:,()[()()()]()()()2()()2()()2()() ()2n n n i i i i n n i i i i i i n n n i i i i i i n n i i i i i n i i x x y y n n Q bx a y a bx y y y b x x n a bx y y y b x x a bx y y y a bx y x x b x x y y b x x =============+-=+---+-=+-+-+--+---+-----=--∑∑∑∑∑∑∑∑∑∑∑的最小值知又22 111 122211()()()()()()()()n n i i i i i n n i i i i i i n n i i i i b x x y y n a bx y y y b x x y y x y nx y b x x x n x a y bx ======--++-+----==--=-∑∑∑∑∑∑此式为关于的一元二次方程,当

第三章-经典单方程计量经济学模型教学文稿

第三章 经典单方程计量经济学模型:多元线性回归模型 3—1 解释下列概念 (1)多元线性回归模型 解答:在现实经济活动中往往存在着一个变量受到其他多个变量的影响的现象,表现为在线性回归模型中有多个解释变量,这样的模型被称为多元线性回归模型,多元指多个解释变量。 (2)偏回归系数 解答:在多元回归模型中,每一个解释变量前的参数即为偏回归系数,它测度了当其他解释变量保持不变时,该解释变量增加1个单位对被解释变量带来的平均影响程度。 (3)正规方程组 解答:正规方程组指采用OLS 估计线性回归模型时,对残差平方和关于各参数求偏导,并 令偏导数为零得到的一组方程,其矩阵形式为Y X X X '=' β? (4)调整的多元可决系数 解答:调整的多元可决系数2 R ,又称独院判定系数,是一个用于描述伴随模型中解释变量的增加和多个解释变量对被解释变量的联合影响程度的量。它与2 R 有如下关系: 1 1 ) 1(122-----=k n n R R (5)多重共线性 解答:多重共线性是多元回归中特有的一个概念,指多个解释变量间存在线性相关的情形。如果存在完全的线性相关性,则模型的参数就无法求出,OLS 回归无法进行。 (6)联合假设检验 解答:联合假设检验是相对于单个假设检验来说的,指假设检验中的假设有多个,不止一个。如多元回归中的方程的显著性检验就是一个联合假设检验,而每个参数的t 检验就是单个假设检验。 (7)受约束回归

解答:在世纪经济活动中,常常需要根据经济理论对模型中的变量参数施加一定的约束条件,对模型施加约束条件后进行回归,称为受约束回归。 (8)无约束回归 解答:无约束回归是与受约束回归相当对的一个概念,无需对模型中变量的参数施加约束条件进行的回归称为无约束回归 3—2 观察下列方程并判断其变量是否呈线性?系数是否呈线性?或都是?或都不是? (1)i i i X Y εββ++=3 10 (2)i i i X Y εββ++=log 10 (3)i i i X Y εββ++=ln ln 10 (4)i i i X Y εβββ++=)(210 (5)i i i X Y εββ+= 10 (6)i i i i X Y εββ +-+=)1(10 (7)i i i i X X Y εβββ+++=10 22 110 解答:(1),(2),(3),(7)变量非线性,系数线性: (4)变量线性,系数非线性: (5),(6)变量和系数均为非线性。 3—4 为什么说最小二乘估计量是最优的线性无偏估计量?多元线性回归最小二乘估计的正规方程组,能解出唯一的参数估计的条件是什么? 解答:在多元回归的参数模型中,在模型满足经典假设的条件下,参数的最小二乘估计量具有线性性、无偏性以及最小方差性,所以被称为最有线性无偏估计量(BLUE )。 对于多元线性回归最小二乘估计的正规方程组,能解出唯一的参数估计量的条件是 1)(-'X X 存在,或者说各解释变量间不完全线性相关。

线性回归方程高考题

线性回归方程高考题 1、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量(吨)与相应的生产能耗(吨标准煤)的几组对照数据: 3 4 5 6 2.5 3 4 4.5 (1)请画出上表数据的散点图; (2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:)

2、假设关于某设备的使用年限x和所支出的维修费用y(万元)统计数据如下: 使用年限x 2 3 4 5 6 维修费用y 2.2 3.8 5.5 6.5 7.0 若有数据知y对x呈线性相关关系.求: (1) 填出下图表并求出线性回归方程=bx+a的回归系数,; 序号x y xy x2 1 2 2.2 2 3 3.8 3 4 5.5 4 5 6.5 5 6 7.0 ∑ (2) 估计使用10年时,维修费用是多少.

3、某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四实试验,得到的数据如下: 零件的个数x(个) 2 3 4 5 加工的时间y(小时) 2.5 3 4 4.5 (1)在给定的坐标系中画出表中数据的散点图; (2)求出y关于x的线性回归方程,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少时间? (注:

4、某服装店经营的某种服装,在某周内获纯利(元)与该周每天销售这种服装件数之间的一组数据关系如下表: 3 4 5 6 7 8 9 66 69 73 81 89 90 91 已知:. (Ⅰ)画出散点图; (1I)求纯利与每天销售件数之间的回归直线方程. 5、某种产品的广告费用支出与销售额之间有如下的对应数据: 2 4 5 6 8 30 40 60 50 70 (1)画出散点图: (2)求回归直线方程; (3)据此估计广告费用为10时,销售收入的值.

第八章 单方程回归模型的几个专题

第八章 单方程回归模型的几个专题 8.1虚拟变量(dummy variable ) 8.1.1 概念与用作 在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质等因素的影响。这些因素也应该包括在模型中。为此人们采取了一种构造人工变量的方法,将这些定性变量进行量化,使其能与数值变量一样在回归模型中得以应用。 构造的规则是当某种属性存在时,人工变量取值为1;当某种属性不存在时时,取值为0。在计量经济学中,我们把反映定性因素变化,取值为0或1的人工变量称为虚拟变量。习惯上用D 表示。如: 引入虚拟变量的作用主要有三个:1)可以描述定性因素的影响;2)能够正确反映经济变量的相互关系,提高模型的精度;3)便于处理异常数据。当样本资料中存在异常数据时,一般有三种处理方式。一是直接剔除;二是平滑掉;三是设置虚拟变量。 8.1.2 虚拟变量的设置 1、设置规则 1)一个因素多个属性:若定性因素有M 个不同的属性,或相互排斥的类型,在模型中则只能引入M-1个虚拟变量,否则会引起完全多重共线性。 2)多个因素多个属性:每个因素的引入方法均按上述原则。 2、引入方式: 1)加法方式(截距移动) 设有模型, y t = β0 + β1 x t + β2D + u t , 其中y t ,x t 为定量变量;D 为定性变量。当D = 0 或1时,上述模型可表达为,

y t =?? ?=+++=++1 )(0 12010D u x D u x t t t t βββββ 020 40 60 20 40 60 X Y 图8.1 测量截距不同 D = 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若β2显著不为零,说明截距不同;若β2为零,说明这种分类无显著性差异。 例:中国成年人体重y (kg )与身高x (cm )的回归关系如下: –105 + x D = 1 (男) y = - 100 + x - 5D = – 100 + x D = 0 (女) 注意: ① 若定性变量含有m 个类别,应引入m -1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap )。 ② 关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。 ③ 定性变量中取值为0所对应的类别称作基础类别(base category )。 ④ 对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如: 1 (大学) D = 0 (中学) -1 (小学)。 例1:市场用煤销售量模型(file: Dummy1) 我国市场用煤销量的季节性数据(1982-1988,《中国统计年鉴》1987,1989)见下图与表。由于受取暖用煤的影响,每年第四季度的销售量大大高于其它季度。鉴于是季节数据可设三个季节变量如下: 1 (4季度) 1 (3季度) 1 (2季度) D 1 = D 2 = D 3 = 0 (1, 2, 3季度) 0 (1, 2, 4季度) 0 (1, 3, 4季度) β0 β0+β2 D = 1 D =0

线性回归方程题型

线性回归方程 1.【2014高考全国2第19题】某地区2007年至2013年农村居民家庭纯收入y(单位:千元)的数据如下表: (Ⅰ)求y关于t的线性回归方程; (Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘法估计公式分别为: ()() () 1 2 1 n i i i n i i t t y y b t t ∧ = = -- = - ∑ ∑ ,? ?a y bt =- 2.【2016年全国3】下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图. 注:年份代码1–7分别对应年份2008–2014. (Ⅰ)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;

(Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注: 参考数据: 7 1 9.32i i y ==∑,7 1 40.17i i i t y ==∑ 0.55=,≈2.646. 参考公式:()() n i i t t y y r --= ∑ 回归方程y a bt =+ 中斜率和截距的最小二乘估计公式分别为: 1 2 1 ()() ()n i i i n i i t t y y b t t ==--= -∑∑ ,=.a y bt - 3.【2015全国1】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的宣传费i x 和年销售量()1,2,,8i y i = 数据作了初步处理,得到下面的散点图及一些统计量的值.

经典单方程计量经济学模型一元线性回归模型

经典单方程计量经济学模型一元线性回归模型

第二章经典单方程计量经济学模型:一元线性回归模型 一、内容提要 本章介绍了回归分析的基本思想与基本方法。首先,本章从总体回归模型与总体回归函数、样本回归模型与样本回归函数这两组概念开始,建立了回归分析的基本思想。总体回归函数是对总体变量间关系的定量表述,由总体回归模型在若干基本假设下得到,但它只是建立在理论之上,在现实中只能先从总体中抽取一个样本,获得样本回归函数,并用它对总体回归函数做出统计推断。 本章的一个重点是如何获取线性的样本回归函数,主要涉及到普通最小二乘法(OLS)的学习与掌握。同时,也介绍了极大似然估计法(ML)以及矩估计法(MM)。 本章的另一个重点是对样本回归函数能否代表总体回归函数进行统计推断,即进行所谓的统计检验。统计检验包括两个方面,一是先检验样本回归函数与样本点的“拟合优度”,第二是检验样本回归函数与总体回归函数的“接近”程度。

后者又包括两个层次:第一,检验解释变量对被解释变量是否存在着显著的线性影响关系,通过变量的t检验完成;第二,检验回归函数与总体回归函数的“接近”程度,通过参数估计值的“区间检验”完成。 本章还有三方面的内容不容忽视。其一,若干基本假设。样本回归函数参数的估计以及对参数估计量的统计性质的分析以及所进行的统计推断都是建立在这些基本假设之上的。其二,参数估计量统计性质的分析,包括小样本性质与大样本性质,尤其是无偏性、有效性与一致性构成了对样本估计量优劣的最主要的衡量准则。Goss-markov定理表明OLS估计量是最佳线性无偏估计量。其三,运用样本回归函数进行预测,包括被解释变量条件均值与个值的预测,以及预测置信区间的计算及其变化特征。 二、典型例题分析 例1、令kids表示一名妇女生育孩子的数目,educ表示该妇女接受过教育的年数。生育率对教育年数的简单回归模型为

第二章 简单线性回归模型练习题

第二章 简单线性回归模型练习题 一、术语解释 1 解释变量 2 被解释变量 3 线性回归模型 4 最小二乘法 5 方差分析 6 参数估计 7 控制 8 预测 二、填空 1 在经济计量模型中引入反映( )因素影响的随机扰动项t ξ,目的在于使模型更符合( )活动。 2 在经济计量模型中引入随机扰动项的理由可以归纳为如下几条:(1)因为人的行为的( )、社会环境与自然环境的( )决定了经济变量本身的( );(2)建立模型时其他被省略的经济因素的影响都归入了( )中;(3)在模型估计时,( )与归并误差也归入随机扰动项中;(4)由于我们认识的不足,错误的设定了( )与( )之间的数学形式,例如将非线性的函数形式设定为线性的函数形式,由此产生的误差也包含在随机扰动项中了。 3 ( )是因变量离差平方和,它度量因变量的总变动。就因变量总变动的变异来源看,它由两部分因素所组成。一个是自变量,另一个是除自变量以外的其他因素。( )是拟合值的离散程度的度量。它是由自变量的变化引起的因变量的变化,或称自变量对因变量变化的贡献。( )是度量实际值与拟合值之间的差异,它是由自变量以外的其他因素所致,它又叫残差或剩余。 4 回归方程中的回归系数是自变量对因变量的( )。某自变量回归系数β的意义,指的是该自变量变化一个单位引起因变量平均变化( )个单位。 5 模型线性的含义,就变量而言,指的是回归模型中变量的( );就参数而言,指的是回归模型中的参数的( );通常线性回归模型的线性含义是就( )而言的。 6 样本观察值与回归方程理论值之间的偏差,称为( ),我们用残差估计线性模型中的( )。 三、简答题 1 在线性回归方程中,“线性”二字如何理解? 2 用最小二乘法求线性回归方程系数的意义是什么? 3 一元线性回归方程的基本假设条件是什么? 4 方差分析方法把数据总的平方和分解成为两部分的意义是什么? 5 试叙述t 检验法与相关系数检验法之间的联系。 6 应用线性回归方程控制和预测的思想。 7 线性回归方程无效的原因是什么? 8 回归分析中的随机误差项i ε有什么作用?它与残差项t e 有何区别?

多元线性回归模型公式().docx

二、多元线性回归模型 在多要素的地理环境系统中,多个(多于两个)要素之间也存在着相互影响、相互关联的情况。因此,多元地理回归模型更带有普遍性的意义。 (一)多元线性回归模型的建立 假设某一因变量 y 受 k 个自变量 x 1, x 2 ,..., x k 的影响,其 n 组观测值为( y a , x 1 a , x 2 a ,..., x ka ), a 1,2,..., n 。那么,多元线性回归模型的结构形式为: y a 0 1 x 1a 2 x 2 a ... k x ka a () 式中: 0 , 1 ,..., k 为待定参数; a 为随机变量。 如果 b 0 , b 1 ,..., b k 分别为 0 , 1 , 2 ..., k 的拟合值,则回归方程为 ?= b 0 b 1x 1 b 2 x 2 ... b k x k () 式中: b 0 为常数; b 1, b 2 ,..., b k 称为偏回归系数。 偏回归系数 b i ( i 1,2,..., k )的意义是,当其他自变量 x j ( j i )都固定时,自变量 x i 每变 化一个单位而使因变量 y 平均改变的数值。 根据最小二乘法原理, i ( i 0,1,2,..., k )的估计值 b i ( i 0,1,2,..., k )应该使 n 2 n 2 Q y a y a y a b 0 b 1 x 1a b 2 x 2a ... b k x ka min () a 1 a 1 有求极值的必要条件得 Q n 2 y a y a b 0 a 1 () Q n 2 y a y a x ja 0( j 1,2,..., k) b j a 1 将方程组()式展开整理后得:

线性回归方程

线性 回归 方程 统计总课时第18课时分课题线性回归方程分课时第1 课时 教学目标了解变量之间的两种关系,了解最小平方法〔最小二乘法〕的思想,会用公式求解回归系数. 重点难点最小平方法的思想,线性回归方程的求解. 线性回归方程 某小卖部为了了解热茶销量与气温之间的关系,随机统计并制作了某6天卖出热茶的杯数与当天气温的对照表: 气温/C ?26 18 13 10 4 -1 杯数20 24 34 38 50 64假设某天的气温是C? -5,那么你能根据这些数据预测这天小卖部卖出热茶的杯数吗? 新课教学 1.变量之间的两类关系: 〔1〕函数关系: 〔2〕相关关系: 2.线性回归方程: 〔1〕散点图: 〔2〕最小平方法〔最小二乘法〕:〔3〕线性相关关系: 〔4〕线性回归方程、回归直线:3.公式: [来源:https://www.360docs.net/doc/356316021.html,] 4.求线性回归方程的一般步骤: x y O

例题剖析 例1 下表为某地近几年机动车辆数与交通事故数的统计资料,请判断机动车辆数与交通事故数之间是否具有线性相关关系,如果具有线性相关关系,求出线性回归方程;如果不具有线性相关关系,说明理由.[来源:学&科&网] 机动车辆数x/千辆95 110 112 120 129 135 150 180 交通事故数y/千件 6.2 7.5 7.7 8.5 8.7 9.8 10.2 13 [来源:1ZXXK]

思考:如图是1991年到2000年北京地区年平均气温〔单位:C 〕与年降雨量〔单位:mm 〕的散点图,根据此图能求出它的回归直线方程吗?如果能,此时求得的回归直线方程有意义吗? 巩固练习 1x /百万元 [来 源:Z+xx+https://www.360docs.net/doc/356316021.html,] 2 4 5 6 8 y /百万元 30 40 60 50 70 〔1〕画出散点图; 〔2〕求线性回归方程. 课堂小结 了解变量之间的两种关系,了解最小平方法的思想,会用公式求解回归系数. x y 100 200 300 400 500 600 12.40 12.60 12.80 13.00

多元线性回归的计算方法

多元线性回归的计算方法 摘要 在实际经济问题中,一个变量往往受到多个变量的影响。例如,家庭 消费支出,除了受家庭可支配收入的影响外,还受诸如家庭所有的财富、物价水平、金融机构存款利息等多种因素的影响,表现在线性回归模型中的解释变量有多个。这样的模型被称为多元线性回归模型。 多元线性回归的基本原理和基本计算过程与一元线性回归相同,但由 于自变量个数多,计算相当麻烦,一般在实际中应用时都要借助统计软件。这里只介绍多元线性回归的一些基本问题。 但由于各个自变量的单位可能不一样,比如说一个消费水平的关系式中,工资水平、受教育程度、职业、地区、家庭负担等等因素都会影响到消费水平,而这些影响因素(自变量)的单位显然是不同的,因此自变量前系数的大小并不能说明该因素的重要程度,更简单地来说,同样工资收入,如果用元为单位就比用百元为单位所得的回归系数要小,但是工资水平对消费的影响程度并没有变,所以得想办法将各个自变量化到统一的单位上来。前面学到的标准分就有这个功能,具体到这里来说,就是将所有变量包括因变量都先转化为标准分,再进行线性回归,此时得到的回归系数就能反映对应自变量的重要程度。这时的回归方程称为标准回归方程,回归系数称为标准回归系数,表示如下: Zy=β1Zx1+β2Zx2+…+βkZxk 注意,由于都化成了标准分,所以就不再有常数项a 了,因为各自变量都取平均水平时,因变量也应该取平均水平,而平均水平正好对应标准分0,当等式两端的变量都取0时,常数项也就为0了。 多元线性回归模型的建立 多元线性回归模型的一般形式为 Yi=β0+β1X1i+β2X2i+…+i i i i h x υβ+ =1,2,…,n 其中 k 为解释变量的数目,j β=(j=1,2,…,k)称为回归系数 (regression coefficient)。上式也被称为总体回归函数的随机表达式。它的非随机表达式为 E(Y∣X1i,X2i,…Xki,)=β0+β1X1i+β2X2i+…+βkXki βj 也被称为偏回归系数(partial regression coefficient) 多元线性回归的计算模型

第二章经典单方程计量经济学模型:一元线性回归模型

第二章经典单方程计量经济学模型:一元线性回 归模型 复习总结 2.1回归分析概述 2、回归分析的基本概念 二、总体回归函数 总体回归线:在给定解释变量X i条件下被解释变量Y i的期望轨迹称为总体回归线(population regression line),或更一般地称为总体回归曲线(population regression curve)。 总体回归函数(population regression function, PRF) 三、随机扰动项 称i为观察值Y i围绕它的期望值E(Y|X i)的离差(deviation),是一个不可观测的随机变量,又称为随机干扰项(stochastic disturbance)或随机误差项(stochastic error) 总体回归函数(方程)PRF的随机设定形式。方程中引入了随机项,成为计量经济学模型,因此也称为总体回归模型。 随机误差项主要包括下列因素的影响 1)在解释变量中被忽略的因素的影响; 2)变量观测值的观测误差的影响; 3)模型关系的设定误差的影响; 4)其它随机因素的影响。 四、样本回归函数(SRF) 样本散点图近似于一条直线,画一条直线以尽好地拟合该散点图,由于样本取自总体,可以该线近似地代表总体回归线。该线称为样本回归线(sample regression lines)。 样本回归线的函数形式为 称为样本回归函数(sample regression function,SRF) 样本残差: ? 此节要点: ? PRL、PRF、PRM

? SRL、SRF、SRM ? 随机扰动项、样本残差 ? 要求:每个概念,与图形的对应 2.2一元线性回归模型的参数估计 一、线性回归模型的基本假设1-6 普通最小二乘法(Ordinary least squares, OLS)给出的判断标准是:二者之差的平方和最小 求正规方程组 离差形式 极大似然的基本原理 四、最小二乘估计量的性质 小样本性质:线性、无偏、有效的证明(重要) 大样本或渐近性质 估计量的标准差 牢记:由于随机项i不可观测,只能从i的估计——残差e i出发,对总体方差进行估计。它是关于2的无偏估计量 的样本方差: 的样本标准差:

线性回归方程

2.4线性回归方程 重难点:散点图的画法,回归直线方程的求解方法,回归直线方程在现实生活与生产中的应. 考纲要求:①会作两个有关联变量数据的散点图,会利用散点图认识变量间的相关关系. ②了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程. 经典例题:10.有10名同学高一(x)和高二(y)的数学成绩如下: ⑴画出散点图; ⑵求y对x的回归方程。 当堂练习: 1.下表是某小卖部一周卖出热茶的杯数与当天气温的对比表:若热茶杯数y与气温x近似地满足线性关系,则其关系式最接近的是() . .

. . A . B . C . D . 2.线性回归方程表示的直线必经过的一个定点是( ) A . B . C . D . 3.设有一个直线回归方程为 ,则变量x 增加一个单位时 ( ) A . y 平均增加 1.5 个单位 B. y 平均增加 2 个单位 C . y 平均减少 1.5 个单位 D. y 平均减少 2 个单位 4.对于给定的两个变量的统计数据,下列说确的是( ) A .都可以分析出两个变量的关系 B .都可以用一条直线近似地表示两者的关系 C .都可以作出散点图 D. 都可以用确定的表达式表示两者的关系 5.对于两个变量之间的相关系数,下列说法中正确的是( ) A .|r|越大,相关程度越大 B .|r|,|r|越大,相关程度越小,|r|越小,相关程度越大 杯 数 24 34 39 51 63

C.|r|1且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小D.以上说法都不对 6.“吸烟有害健康”,那么吸烟与健康之间存在什么关系() A.正相关B.负相关C.无相关D.不确定 7.下列两个变量之间的关系不是函数关系的是() A.角度与它的余弦值B.正方形的边长与面积 C.正n边形的边数和顶点角度之和D.人的年龄与身高 8.对于回归分析,下列说法错误的是() A.变量间的关系若是非确定性关系,则因变量不能由自变量唯一确定 B.线性相关系数可正可负 C.如果,则说明x与y之间完全线性相关 D.样本相关系数 9.为了考察两个变量x和y之间的线性相关性,甲、乙两个同学各自独立的做10次和15V次试验,并且利用线性回归方法,求得回归直线分布为和,已知 . .

多元线性回归模型公式

二、多元线性回归模型 在多要素的地理环境系统中,多个(多于两个)要素之间也存在着相互影响、相互关联的情况。因此,多元地理回归模型更带有普遍性的意义。 (一)多元线性回归模型的建立 假设某一因变量 y 受k 个自变量x 1,x 2,...,x k 的影响,其n 组观测值为(y a ,x 1a ,x 2a ,...,x ka ), a 1,.2..,n 。那么,多元线性回归模型的结构形式为: y a 1x 1a 2x 2a ... k x ka a (3.2.11) 式中: 0,1 ,..., k 为待定参数; a 为随机变量。 如果b 0,b 1,...,b k 分别为 0,1, 2 ... , k 的拟合值,则回归方程为 ?=b 0 b 1x 1 b 2x 2 ... b k x k (3.2.12) 式中: b 0为常数; b 1,b 2,...,b k 称为偏回归系数。 偏回归系数b i (i1,2,...,k )的意义是,当其他自变量 x j (j i )都固定时,自变量 x i 每 变化一个单位而使因变 量 y 平均改变的数值。 根据最小二乘法原理, i (i 0,1,2,...,k )的估计值b i (i 0,1,2,...,k )应该使 n 2 n 2 Q y a y a y a b 0 b1x1a b2x2a ... bkxk a min (3.2.13) a 1 a1 有求极值的必要条件得 Q n 2 y a y a 0 b 0 a 1 (3.2.14) Q n 2 y a yaxja 0(j 1,2,...,k) b j a1 将方程组(3.2.14)式展开整理后得:

一元线性回归模型习题及答案解析

一元线性回归模型 一、单项选择题 1、变量之间的关系可以分为两大类__________。A A 函数关系与相关关系 B 线性相关关系和非线性相关关系 C 正相关关系和负相关关系 D 简单相关关系和复杂相关关系 2、相关关系是指__________。D A 变量间的非独立关系 B 变量间的因果关系 C 变量间的函数关系 D 变量间不确定性的依存关系 3、进行相关分析时的两个变量__________。A A 都是随机变量 B 都不是随机变量 C 一个是随机变量,一个不是随机变量 D 随机的或非随机都可以 4、表示x 和y 之间真实线性关系的是__________。C A 01???t t Y X ββ=+ B 01()t t E Y X ββ=+ C 01t t t Y X u ββ=++ D 01t t Y X ββ=+ 5、参数β的估计量?β 具备有效性是指__________。B A ?var ()=0β B ?var ()β为最小 C ?()0β β-= D ?()ββ-为最小 6、对于01??i i i Y X e ββ=++,以σ?表示估计标准误差,Y ?表示回归值,则__________。B A i i ??0Y Y 0σ∑ =时,(-)= B 2 i i ??0Y Y σ∑=时,(-)=0 C i i ??0Y Y σ∑=时,(-)为最小 D 2 i i ??0Y Y σ∑=时,(-)为最小 7、设样本回归模型为i 01i i ??Y =X +e ββ+,则普通最小二乘法确定的i ?β的公式中,错误的是__________。D A ()() () i i 1 2 i X X Y -Y ?X X β --∑∑= B ()i i i i 1 2 2 i i n X Y -X Y ?n X -X β∑∑∑∑∑= C i i 1 2 2 i X Y -nXY ?X -nX β ∑∑= D i i i i 1 2 x n X Y -X Y ?βσ ∑∑∑= 8、对于i 01i i ??Y =X +e ββ+,以 ?σ表示估计标准误差,r 表示相关系数,则有__________。D A ?0r=1σ =时, B ?0r=-1σ =时, C ?0r=0σ =时, D ?0r=1r=-1σ =时,或 9、产量(X ,台)与单位产品成本(Y ,元/台)之间的回归方程为?Y 356 1.5X -=,这

计量经济学 第三章、经典单方程计量经济学模型:多元线性回归模型

第三章、经典单方程计量经济学模型:多元线性回归模型 一、内容提要 本章将一元回归模型拓展到了多元回归模型,其基本的建模思想与建模方法与一元的情形相同。主要内容仍然包括模型的基本假定、模型的估计、模型的检验以及模型在预测方面的应用等方面。只不过为了多元建模的需要,在基本假设方面以及检验方面有所扩充。 本章仍重点介绍了多元线性回归模型的基本假设、估计方法以及检验程序。与一元回归分析相比,多元回归分析的基本假设中引入了多个解释变量间不存在(完全)多重共线性这一假设;在检验部分,一方面引入了修正的可决系数,另一方面引入了对多个解释变量是否对被解释变量有显著线性影响关系的联合性F检验,并讨论了F检验与拟合优度检验的内在联系。 本章的另一个重点是将线性回归模型拓展到非线性回归模型,主要学习非线性模型如何转化为线性回归模型的常见类型与方法。这里需要注意各回归参数的具体经济含义。 本章第三个学习重点是关于模型的约束性检验问题,包括参数的线性约束与非线性约束检验。参数的线性约束检验包括对参数线性约束的检验、对模型增加或减少解释变量的检验以及参数的稳定性检验三方面的内容,其中参数稳定性检验又包括邹氏参数稳定性检验与邹氏预测检验两种类型的检验。检验都是以F检验为主要检验工具,以受约束模型与无约束模型是否有显著差异为检验基点。参数的非线性约束检验主要包括最大似然比检验、沃尔德检验与拉格朗日乘数检验。它们仍以估计无约束模型与受约束模型为基础,但以最大似然原 χ分布为检验统计量理进行估计,且都适用于大样本情形,都以约束条件个数为自由度的2 的分布特征。非线性约束检验中的拉格朗日乘数检验在后面的章节中多次使用。 二、典型例题分析 例1.某地区通过一个样本容量为722的调查数据得到劳动力受教育的一个回归方程为36 .0 . + = - 10+ 094 medu fedu .0 sibs edu210 131 .0 R2=0.214 式中,edu为劳动力受教育年数,sibs为该劳动力家庭中兄弟姐妹的个数,medu与fedu分别为母亲与父亲受到教育的年数。问

相关文档
最新文档