第4章 双变量回归模型估计问题精品PPT课件
合集下载
双变量回归和相关

3.60
3.40
3.20
尿
3.00
酐肌
2.80
2.60
2.40
4
6
8
10
12
14
年龄
图9-1 8名儿童的年龄与其尿肌酐含量散点图
研究的两个指标之间存在依存关系,对指标进 行观测,观测结果作散点图,若绘出的点在一条直 线附近,则表示这两个指标之间可能存在着线性依 从关系。
两个指标之间的线性依从关系可以通过直线回 归方程来表示。
b=0.1392,Sb=0.0304,t0.05/2,6=2.447
b t / 2 , S b 0 . 1 3 9 2 2 . 4 4 7 0 . 0 3 0 4 ( 0 . 0 6 4 8 , 0 . 2 1 3 6 )
所以,总体回归系数β的95%可信区间为: (0.0648,0.2136)
例9-2 检验例9-1数据得到的直线回归方程是否成立?
① 建立假设并确定检验水准
H0:β=0 H1:β≠0
α=0.05
② 计算统计量F
S S 回 归 lX 2 YlX X 5 .8 4 5 24 2 0 .8 1 3 4 1
S S 残 差 S S 总 S S 回 归 1 . 0 4 6 2 0 . 8 1 3 4 0 . 2 3 2 8 n 2 8 2 6
在直线回归中对回归系数进行假设检验,t检验 和F检验等价,t2=F
(二)总体回归系数β的可信区间
总体回归系数β的可信度为1-α的可信区间:
b t /2, Sb
Sb
SY X lXX
SYX
MS残差
双变量回归模型估计问题

i 1
^
n
这说明 1 是 Yi 的一个线性函数,它是以 k 为
i
^
权的一个加权平均数,从而它是一个线性估计
量。同理, 0 也是一个线性估计量。
^
(2)无偏性
^ E 0 0
^ E 1 1
^
1 就是说,虽然由不同的样本得到的 0 , 1,但平均 可能大于或小于它们的真实值 0, 1 。 起来等于它们的真实值 0 ,
2 i 2 i i
yi Yi Y
2
式(3-13)可表示为
TSS=ESS+RSS
(3-14)
这说明 Yi 的观测值围绕其均值的总变异
可分解为两部分,一部分来自回归线,而另 一部分则来自扰动项ui 。
Y
ui =来自残差
Yi
2
SRF
Yi 0 1 X i
n i 1 i i
3.2 高斯-马尔可夫定理
最小二乘估计量有何优良的统计性质呢? 假定5:同方差性
Var ui X i E ui E ui X i
E ui X i
2
f Y X i
2
Y
2
E Y X i 0 1 X i
X
2
i
se 1
x
i 1
n
n
2
i
var ( 0 )
X
i 1
2 i 2
n xi
2
se 0 i 1n 2 n xi
i 1
X
2 i
^
n
这说明 1 是 Yi 的一个线性函数,它是以 k 为
i
^
权的一个加权平均数,从而它是一个线性估计
量。同理, 0 也是一个线性估计量。
^
(2)无偏性
^ E 0 0
^ E 1 1
^
1 就是说,虽然由不同的样本得到的 0 , 1,但平均 可能大于或小于它们的真实值 0, 1 。 起来等于它们的真实值 0 ,
2 i 2 i i
yi Yi Y
2
式(3-13)可表示为
TSS=ESS+RSS
(3-14)
这说明 Yi 的观测值围绕其均值的总变异
可分解为两部分,一部分来自回归线,而另 一部分则来自扰动项ui 。
Y
ui =来自残差
Yi
2
SRF
Yi 0 1 X i
n i 1 i i
3.2 高斯-马尔可夫定理
最小二乘估计量有何优良的统计性质呢? 假定5:同方差性
Var ui X i E ui E ui X i
E ui X i
2
f Y X i
2
Y
2
E Y X i 0 1 X i
X
2
i
se 1
x
i 1
n
n
2
i
var ( 0 )
X
i 1
2 i 2
n xi
2
se 0 i 1n 2 n xi
i 1
X
2 i
双变量回归

第三章
双变量回归模型:估计问题
简单的线性回归模型
Yi = 1 + 2 X i + ui
Yi = 每周家庭支出 X i = 每周家庭收入
对于给定的 xi的水平, 预期的食物支 出将是: E(Yi|X i) = 1 + 2 X i
参数
1和 2是未知常数.
^ ^ ) 的公 产生样本估计量 b1 (或 1)和 b2(或 2 式就是 1 和 2的估计。
b1 和b2的预期值
简单线性回归下的估计量的公式:
b2 =
nXiYi - XiYi nX2 -(Xi)2 i
xiyi = xi2
b1 = Y - b2X
这里
Y = Yi / n 和 X = Xi / n
将 Yi = 1 + 2xi + 替代到 b2 公式中并得:
ui
nxi ui - xi ui b2 = 2 + 2 2 nxi -(xi)
)2
=
yi
i
2
=
^
xi2 yi2
Sx2 Sy2
xiyi)2 xiyi 2 xi2 = = 2 2 xi2yi2 xi yi
Y
当R2 = 0 SRF
哪个是SRF ?Leabharlann X Y当 R2 = 1
SRF
SRF 通过所有点
X
高斯马尔可夫定理
在经典的线性回归模型条件下, 最小二乘 (OLS) 估计量 b1 和 b2 是1和 2 的最优线 性无偏估计量 (BLUE). 这意味着 b1和 b2 在1 和2所有线性无偏估计量中拥有 最小 方差.
错误的模型设定 先前的无偏结果假定使用了正确 的设定形式
双变量回归模型:估计问题
简单的线性回归模型
Yi = 1 + 2 X i + ui
Yi = 每周家庭支出 X i = 每周家庭收入
对于给定的 xi的水平, 预期的食物支 出将是: E(Yi|X i) = 1 + 2 X i
参数
1和 2是未知常数.
^ ^ ) 的公 产生样本估计量 b1 (或 1)和 b2(或 2 式就是 1 和 2的估计。
b1 和b2的预期值
简单线性回归下的估计量的公式:
b2 =
nXiYi - XiYi nX2 -(Xi)2 i
xiyi = xi2
b1 = Y - b2X
这里
Y = Yi / n 和 X = Xi / n
将 Yi = 1 + 2xi + 替代到 b2 公式中并得:
ui
nxi ui - xi ui b2 = 2 + 2 2 nxi -(xi)
)2
=
yi
i
2
=
^
xi2 yi2
Sx2 Sy2
xiyi)2 xiyi 2 xi2 = = 2 2 xi2yi2 xi yi
Y
当R2 = 0 SRF
哪个是SRF ?Leabharlann X Y当 R2 = 1
SRF
SRF 通过所有点
X
高斯马尔可夫定理
在经典的线性回归模型条件下, 最小二乘 (OLS) 估计量 b1 和 b2 是1和 2 的最优线 性无偏估计量 (BLUE). 这意味着 b1和 b2 在1 和2所有线性无偏估计量中拥有 最小 方差.
错误的模型设定 先前的无偏结果假定使用了正确 的设定形式
第4章 双变量回归模型:估计问题

式(4-4)可改写为
ˆ ˆ 1 Y 2 X xy ˆ i i 2 xi2
称为参数 1 、 2 的普通最小二乘估
(4-5) 计量的离差形式(deviation form)
样本回归线通过Y和X的样本均值
一旦从样本数据得到OLS估计值,便容易画出样本回归线,这样得到的 回归线有如下性质:
1. 它通过Y和X的样本均值。这是从(4-5)显见的事实,该式可写成
2. 估计的
均值等于实测的Y均值。因为:
将最后一个等式两边对样本值求和并除以样本大小n,即得: 这里利用了等式 。(Why?)
3. 残差
的均值等于0。由(4-2),第一个方程是:
因为 故上述方程化为 ,从而
4.残差 5.残差
和解释变量 和预测的
假设选择两个模型去描述货币工资变化率和失业率的理论关系:
回归模型1对参数和变量都是线性的,回归模型2则对参数为线性, 对变量X为非线性。假如回归模型1是“正确”模型,则模型2在A、 B两点间高估了真实的Y均值。
除了在选择模型时需要做出判断,假定9还为了提醒我们,回归 分析以及由分析得到的结果,是以所选的模型为条件的,从而警 醒我们,在建立计量经济模型时必须十分审慎,特别是对某些经
假定3:干扰项ui 的均值为零。对给定的X值,随机干扰项ui 的均 值或期望值为零,专业地讲,ui 的条件均值为零,符号上记为:
假定3的几何意义可由图3.3描绘出来。图中显示了变量X的几 个值以及与每一X值相对应的一个Y总体。 如图所示,对应于给定的X,每一个Y总体都是围绕其均值分 布的;一些Y值位于均值之上,一些Y值位于均值之下。离开均值 的上方和下方的距离就是ui 。 这一假定意味着凡是模型不含的因而归属于u 的因素,对Y的 均值都没有系统的影响,正的ui 值抵消了负的ui 值,以致它们的 平均影响为零。
第4章 双变量线性回归模型的扩展PPT课件

相对于解释变量时间t的绝对改变量的、 因变量Y的百分比变化或增长率。
案例 17
线性趋势模型
Yt 12tut
斜率系数 的含义
线性到对数的增长模型与线性趋 势模型如何取舍?
案例
18
(二)对数到线性模型
Y i 12ln X iui
斜率系数 的含义
案例
给定解释变量X的相对变化量(增 长率)时,Y的绝对变化量。
3
一、过原点回归模型u ˆi2 (Y iˆX i)2
对残差平方和求最小值,得到如下正规
方程:
2 (Y iˆX i) (X i)0
ˆ X iYi
X
2 i
4
在过原点的双变量线性回归模型中
var(ˆ2)
2
Xi2
ˆ 2
uˆ
2 i
n 1
在带有截距的双变量线性回归模型中
22
谢谢大家
荣幸这一路,与你同行
It'S An Honor To Walk With You All The Way
演讲人:XXXXXX
时 间:XX年XX月XX日
23
var(ˆ2
)
2
xi2
ˆ 2 uˆi2 n2
5
二、过原点回归模型的拟合优度
带有截距项的双变量线性回归模型
r2 ESS1RSS TSS TSS
r2
yˆi2 yi2
ˆ22
xi2 ( yi2
xi yi )2 xi2 yi2
非负
r2 1RSS1 TSS
uˆi2 yi2
6
过原点的双变量线性回归模型
R S ( Y i ˆ S X i ) 2 ( Y i 2 2 ˆ X i Y i ˆ 2 X i 2 )
双变量回归模型估计问题课件

在应用双变量回归模型进行预测之前,需要对模型进行假设检验,以确保模型的有效性和可靠性。
03
CHAPTER
双变量回归模型大样本可以提供更稳定和准确的估计。
异常值可能对估计稳定性产生负面影响。在回归分析中,需要谨慎处理异常值,以避免对估计稳定性的不良影响。
总结词
在气候变化对农业产量影响的案例中,可以选择一些与农业产量密切相关的气候因素作为自变量,如温度、降雨量、光照等。通过双变量回归模型,可以建立这些气候因素与农业产量之间的线性关系,并利用历史数据来估计模型的参数。通过预测未来气候因素的变动,可以进一步预测未来农业产量的变化趋势,为农业生产和资源管理提供决策依据。
详细描述
06
CHAPTER
结论与展望
01
总结了双变量回归模型估计问题的基本概念、方法和应用场景。
02
分析了双变量回归模型估计问题中存在的挑战和问题,如多重共线性、异方差性等。
03
介绍了解决这些问题的常用方法和技巧,如主成分分析、岭回归等。
04
强调了双变量回归模型估计问题在实践中的重要性和应用价值。
最小二乘法具有很多优点,例如它对数据的要求较低、计算相对简单等,因此在回归分析中得到了广泛应用。
模型的假设主要包括线性假设、误差项独立同分布假设、误差项无偏性假设等。
对假设的检验可以通过一些统计方法进行,例如残差分析、Jarque-Bera检验等。如果模型的假设不满足,则需要对模型进行调整或重新设定。
双变量回归模型估计问题课件
目录
引言双变量回归模型基础双变量回归模型的估计问题解决双变量回归模型估计问题的方法实际案例分析结论与展望
01
CHAPTER
引言
03
估计问题是指在使用回归模型时,如何准确地估计未知的参数值。
第四章 回归分析

第四章 回归分析
•反映客观现象之间的联系的数量关系有两种,确定性关系和不 确定性关系. •确定性关系常用函数描述,不确定性关系也称为相关关系,常 用回归分析处理. •确定性关系和不确定性关系在一定条件下互相转换.
4.1 概述 •不确定性关系中作为影响因素的称自变量,用X 表示,是可以控 制的,受X 影响的响应变量称为因变量,用Y 表示,是可以观测的.
n
lxx
14
结束
于是有: 2 (x) ˆ u1 / 2 ,
Y0的1置信区间为yˆ0 ˆ u1 / 2 , yˆ0 ˆ u1 / 2
取 0.05时 : u1 / 2 1.96, Y0的1 置信区间为:
yˆ0 1.96ˆ , yˆ0 1.96ˆ yˆ0 2ˆ , yˆ0 2ˆ
yˆ0 y0
ˆ s1 ( x0 )
~
t (n 2),
其中: s1 ( x0 )
1 ( x0 x )2 ,
n
lxx
ˆ 2
S
2 E
/(n
2),
S
2 E
lyy
S
2 R
,
S
2 R
ˆ12lxx.
12
结束
P T1 t1 / 2 (n 2), 1 ,
P yˆ0 1( x0 ) y0 yˆ0 1( x0 ) 1 ,
r 2
S R2 ST2
n
ˆ12 l xx
( yi y)2
l xy l xx
2
l xx l yy
l
2 xy
,取R
l xx l yy
i 1
Lxy . Lxx Lyy
据性质4.2.5,
0
r
1,
r
•反映客观现象之间的联系的数量关系有两种,确定性关系和不 确定性关系. •确定性关系常用函数描述,不确定性关系也称为相关关系,常 用回归分析处理. •确定性关系和不确定性关系在一定条件下互相转换.
4.1 概述 •不确定性关系中作为影响因素的称自变量,用X 表示,是可以控 制的,受X 影响的响应变量称为因变量,用Y 表示,是可以观测的.
n
lxx
14
结束
于是有: 2 (x) ˆ u1 / 2 ,
Y0的1置信区间为yˆ0 ˆ u1 / 2 , yˆ0 ˆ u1 / 2
取 0.05时 : u1 / 2 1.96, Y0的1 置信区间为:
yˆ0 1.96ˆ , yˆ0 1.96ˆ yˆ0 2ˆ , yˆ0 2ˆ
yˆ0 y0
ˆ s1 ( x0 )
~
t (n 2),
其中: s1 ( x0 )
1 ( x0 x )2 ,
n
lxx
ˆ 2
S
2 E
/(n
2),
S
2 E
lyy
S
2 R
,
S
2 R
ˆ12lxx.
12
结束
P T1 t1 / 2 (n 2), 1 ,
P yˆ0 1( x0 ) y0 yˆ0 1( x0 ) 1 ,
r 2
S R2 ST2
n
ˆ12 l xx
( yi y)2
l xy l xx
2
l xx l yy
l
2 xy
,取R
l xx l yy
i 1
Lxy . Lxx Lyy
据性质4.2.5,
0
r
1,
r
计量经济学-双变量回归模型估计问题PPT课件

01
03
随着大数据和人工智能技术的不断发展,未来的研究 可以结合这些技术,对双变量回归模型进行改进和优
化,提高模型的预测能力和适应性。
04
在实际应用中,需要考虑更多的因素,如时间序列数 据、异方差性、自相关性等问题,需要进一步完善和 改进双变量回归模型。
06 参考文献
参考文献
[1] 李子奈,潘文卿. 计量经济学 (第四版)[M]. 北京:高等教育出版
03
探讨模型结果的经济学意义和实际应用价 值。
04
提出可能的改进方向和未来研究展望。
05 结论与展望
研究结论
双变量回归模型在计量经济学中具有 重要应用,能够有效地分析两个变量 之间的线性关系。
在实际应用中,需要考虑变量的选择、 数据的收集和处理、模型的适用性和 检验等问题,以确保模型的准确性和 可靠性。
变量,另一个变量是自变量。
假设条件
双变量回归模型假设因变量和自 变量之间存在稳定的线性关系, 且误差项是独立的、同分布的。
应用场景
双变量回归模型适用于分析两个 变量之间的因果关系,例如分析 收入与教育程度之间的关系、消
费与收入之间的关系等。
02 双变量回归模型的理论基 础
线性回归模型的定义
01
线性回归模型是一种预测模型, 用于描述因变量与一个或多个自 变量之间的线性关系。
计量经济学的重要性
01
02
03
实证分析
计量经济学提供了一种实 证分析的方法,通过数据 和模型来检验经济理论。
政策制定
计量经济学可以帮助政策 制定者评估政策效果,制 定更加科学合理的政策。
预测
计量经济学可以通过建立 预测模型,对未来经济趋 势进行预测。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
最小二乘法以
m i n
uˆ
2 i
表示被解释变量的估计值与实际观察值的偏差总体上最小。
双变量情形下即是求得
min (Yi ˆ1 ˆ2Xi)2
(4-1)
根据微积分中求极限的原理,要使式(4-1)达到最小,式(4-1)对
ˆ 1 、 ˆ 2 的一阶偏导数应等于0,即
2[Yi (ˆ1 ˆ2 Xi )] 0
n
x iy i(X i X )(Y i Y )
i 1
i 1
X iY i 1 n
X i Y i
式(4-4)可改写为
ˆ 1
Y
ˆ 2 X
ˆ 2
xiyi
x
2 i
称为参数 1 、 2 的普通最小二乘估
(4-5) 计量的离差形式(deviation form)
样本回归线通过Y和X的样本均值
一旦从样本数据得到OLS估计值,便容易画出样本回归线,这样得到的
第四章 经典线性回归模型
华中科技大学武昌分校 王怡
◆ 普通最小二乘法 ◆ 最小二乘法的基本假定
◆ 最小二乘参数估计的精度或标准误差 ◆ 最小二乘估计量的性质:高斯-马尔可夫 定理 ◆ 判定系数r2 :拟合优度的一个度量
◆ 关于蒙特卡罗实验的一个注记
一、普通最小二乘法
前一章我们提到根据样本回归函数尽可能准确地估计 总体回归函数,通常有两种估计方法:普通最小二乘法 (Ordinary Least Squares, OLS)和最大似然法 (Maximum Likelihood, ML)。
(Xi X)2
64
因而 ˆ Y ˆX 200.58*236.70
Yˆi 6.700.58Xi
例2 设Y和X的5期观测值如下表所示,试估计方程
Yt = + Xt + ut
序号
1
2
3
4
5
Yt 14 18 23 25 30
Xt 10 20 30 40 50
解:我们采用列表法计算。计算过程如下:
序号 Yt
2Xi[Yi (ˆ1 ˆ2 Xi )] 0
整理得
(4-2)
nˆ1 ˆ2 Xi Yi 0
ˆ1 Xi ˆ2 Xi2 XiYi 0
(4-3)
解得
X
2 i
Yi
Xi
X iYi
ˆ
1
n
X
2 i
(
X i)2
这就是参数 1 、 2 的普通最小二乘估
计量(ordinary least squares estimators)
普通最小二乘法归功于德国数学家高斯,在回归分析 中得到了广泛运用。它比最大似然法简单的多。
回顾双变量总体回归函数PRF: 该PRF不可直接观测,同过SRF去估计它:
为了考察SRF,把上式化为如下:
( 是 的估 计量,条件均值)
对于给定的Y和X的n对观测值,我们希望SRF尽可能靠近实际的Y。
规则之一:选择这样的SRF,使得残差和
如第3章中的例子,考虑表2.1中各收入水平对应的各个Y总体, 把收入值X固定在80美元的水平上,随机抽取一个家庭,并观测到 它的周家庭消费支出Y为60美元。仍然把X固定在80美元,而随机 的另抽取一个家庭并观测到它的Y值为75美元。在每次抽取即重复 抽样的过程中,X值都固定在80美元。可以对表中的全部X值重复 这一过程。
ˆ
2
n
X iYi
X i Yi
n2
方程组(4-3)称为正规方程组(normal equations)。
(4-4)
记 xi Xi X yi Yi Y(之后都遵循一个惯例,小写字母表示对均值的离差)
xi2 (X iX)2 X i21 n( X i)2
n
表 1 14
4 -
2
18
1
3 23
4 25
5 30
n=5 110
Xt yt= Yt -Y xt=Xt-X
10
-8
-20
20
-4
-10
30
1
0
40
3
10
50
8
20
150
0
0
xt yt
xt2
160 400
40 100
0
0
30 100
160 400
390 1000
Y X y x xy x2
X X t 15 30 ,Y 0 Y t 11 202
有多接近。
PRF表明Yi 依赖于Xi 和ui 。因此,我们需明确Xi 和ui 是怎样产 生的,为了回归估计的有效解释,对Xi 变量(一个或多个)和误差项ui 做出假定是极其重要的。
假定1:线性回归模型。回归模型对参数而言是线性的,如
假定2:在重复抽样中X值是固定的。再重复的样本中,回归元所 取的数值被认为是固定的。说的更专业些,假定X是非随机的。
尽
可能小。(good or bad?)
图 最小二乘准则
最小二乘准则是要确定SRF使得下式尽可能的小:
可以看出,
给出不同的 和 将会得到不同的
。
现在做两个实验。在实验1中,假设
,
。
在实验2中,假设
,
。
总和:
表3.1 SRF的实验决定法
选择哪一组的 值?
第1个实验的 值比第2个实验的 值给出一个更低的
,从而 不相关,即
5.残差 和预测的 值不相关,即
。
X i uˆ i 0
Yˆi uˆ i 0
(离差形式)
按照离差形式,SRF可写成: 利用离差形式可以推出:
例1 对于消费函数,若已知:
n = 10 , X =23, Y=20
(XX)26 4 , (XX)(YY)3 7
则有 ˆ (Xi X)(Yi Y) 370.58
n5
n5
ˆ x y 3 9 0 .3 0 ,ˆ9 Y ˆ* X 2 0 2 .3* 3 9 1 0 .3 0
x 2 1000
二、最小二乘法的基本假定
如果我们的目的仅仅是估计 和 ,则OLS法足够用。但回归分析的
目的不仅仅是获得 和 ,还要对真实的 和 做出推断,即判
断它们离总体值有多接近,或者说 与其期望值
。
所以说第1个实验的 更优。
如何知道最优?
E.g. 做许多次实验,每次选择不同的 值,然后比较所得的
,
并从中选择给出最可能小的
值的那组 值。花费大量时间。
最小二乘法给出了简便的运算。
普通最小二乘法(ordinary least squares,OLS)的基本思想 ——使样本回归函数尽可能好地拟合样本数据
回归线有如下性质:
1. 它通过Y和X的样本均值。这是从(4-5)显见的事实,该式可写成
2. 估计的
均值等于实测的Y均值。因为:
将最后一个等式两边对样本值求和并除以样本大小n,即得:
这里利用了等式
。(Why?)
3. 残差 的均值等于0。由(4-2),第一个方程是:
因为
故上述方程化为 4.残差 和解释变量
m i n
uˆ
2 i
表示被解释变量的估计值与实际观察值的偏差总体上最小。
双变量情形下即是求得
min (Yi ˆ1 ˆ2Xi)2
(4-1)
根据微积分中求极限的原理,要使式(4-1)达到最小,式(4-1)对
ˆ 1 、 ˆ 2 的一阶偏导数应等于0,即
2[Yi (ˆ1 ˆ2 Xi )] 0
n
x iy i(X i X )(Y i Y )
i 1
i 1
X iY i 1 n
X i Y i
式(4-4)可改写为
ˆ 1
Y
ˆ 2 X
ˆ 2
xiyi
x
2 i
称为参数 1 、 2 的普通最小二乘估
(4-5) 计量的离差形式(deviation form)
样本回归线通过Y和X的样本均值
一旦从样本数据得到OLS估计值,便容易画出样本回归线,这样得到的
第四章 经典线性回归模型
华中科技大学武昌分校 王怡
◆ 普通最小二乘法 ◆ 最小二乘法的基本假定
◆ 最小二乘参数估计的精度或标准误差 ◆ 最小二乘估计量的性质:高斯-马尔可夫 定理 ◆ 判定系数r2 :拟合优度的一个度量
◆ 关于蒙特卡罗实验的一个注记
一、普通最小二乘法
前一章我们提到根据样本回归函数尽可能准确地估计 总体回归函数,通常有两种估计方法:普通最小二乘法 (Ordinary Least Squares, OLS)和最大似然法 (Maximum Likelihood, ML)。
(Xi X)2
64
因而 ˆ Y ˆX 200.58*236.70
Yˆi 6.700.58Xi
例2 设Y和X的5期观测值如下表所示,试估计方程
Yt = + Xt + ut
序号
1
2
3
4
5
Yt 14 18 23 25 30
Xt 10 20 30 40 50
解:我们采用列表法计算。计算过程如下:
序号 Yt
2Xi[Yi (ˆ1 ˆ2 Xi )] 0
整理得
(4-2)
nˆ1 ˆ2 Xi Yi 0
ˆ1 Xi ˆ2 Xi2 XiYi 0
(4-3)
解得
X
2 i
Yi
Xi
X iYi
ˆ
1
n
X
2 i
(
X i)2
这就是参数 1 、 2 的普通最小二乘估
计量(ordinary least squares estimators)
普通最小二乘法归功于德国数学家高斯,在回归分析 中得到了广泛运用。它比最大似然法简单的多。
回顾双变量总体回归函数PRF: 该PRF不可直接观测,同过SRF去估计它:
为了考察SRF,把上式化为如下:
( 是 的估 计量,条件均值)
对于给定的Y和X的n对观测值,我们希望SRF尽可能靠近实际的Y。
规则之一:选择这样的SRF,使得残差和
如第3章中的例子,考虑表2.1中各收入水平对应的各个Y总体, 把收入值X固定在80美元的水平上,随机抽取一个家庭,并观测到 它的周家庭消费支出Y为60美元。仍然把X固定在80美元,而随机 的另抽取一个家庭并观测到它的Y值为75美元。在每次抽取即重复 抽样的过程中,X值都固定在80美元。可以对表中的全部X值重复 这一过程。
ˆ
2
n
X iYi
X i Yi
n2
方程组(4-3)称为正规方程组(normal equations)。
(4-4)
记 xi Xi X yi Yi Y(之后都遵循一个惯例,小写字母表示对均值的离差)
xi2 (X iX)2 X i21 n( X i)2
n
表 1 14
4 -
2
18
1
3 23
4 25
5 30
n=5 110
Xt yt= Yt -Y xt=Xt-X
10
-8
-20
20
-4
-10
30
1
0
40
3
10
50
8
20
150
0
0
xt yt
xt2
160 400
40 100
0
0
30 100
160 400
390 1000
Y X y x xy x2
X X t 15 30 ,Y 0 Y t 11 202
有多接近。
PRF表明Yi 依赖于Xi 和ui 。因此,我们需明确Xi 和ui 是怎样产 生的,为了回归估计的有效解释,对Xi 变量(一个或多个)和误差项ui 做出假定是极其重要的。
假定1:线性回归模型。回归模型对参数而言是线性的,如
假定2:在重复抽样中X值是固定的。再重复的样本中,回归元所 取的数值被认为是固定的。说的更专业些,假定X是非随机的。
尽
可能小。(good or bad?)
图 最小二乘准则
最小二乘准则是要确定SRF使得下式尽可能的小:
可以看出,
给出不同的 和 将会得到不同的
。
现在做两个实验。在实验1中,假设
,
。
在实验2中,假设
,
。
总和:
表3.1 SRF的实验决定法
选择哪一组的 值?
第1个实验的 值比第2个实验的 值给出一个更低的
,从而 不相关,即
5.残差 和预测的 值不相关,即
。
X i uˆ i 0
Yˆi uˆ i 0
(离差形式)
按照离差形式,SRF可写成: 利用离差形式可以推出:
例1 对于消费函数,若已知:
n = 10 , X =23, Y=20
(XX)26 4 , (XX)(YY)3 7
则有 ˆ (Xi X)(Yi Y) 370.58
n5
n5
ˆ x y 3 9 0 .3 0 ,ˆ9 Y ˆ* X 2 0 2 .3* 3 9 1 0 .3 0
x 2 1000
二、最小二乘法的基本假定
如果我们的目的仅仅是估计 和 ,则OLS法足够用。但回归分析的
目的不仅仅是获得 和 ,还要对真实的 和 做出推断,即判
断它们离总体值有多接近,或者说 与其期望值
。
所以说第1个实验的 更优。
如何知道最优?
E.g. 做许多次实验,每次选择不同的 值,然后比较所得的
,
并从中选择给出最可能小的
值的那组 值。花费大量时间。
最小二乘法给出了简便的运算。
普通最小二乘法(ordinary least squares,OLS)的基本思想 ——使样本回归函数尽可能好地拟合样本数据
回归线有如下性质:
1. 它通过Y和X的样本均值。这是从(4-5)显见的事实,该式可写成
2. 估计的
均值等于实测的Y均值。因为:
将最后一个等式两边对样本值求和并除以样本大小n,即得:
这里利用了等式
。(Why?)
3. 残差 的均值等于0。由(4-2),第一个方程是:
因为
故上述方程化为 4.残差 和解释变量