3 双变量线性回归模型
ch3 双变量线性回归模型(数学)-1

在满足基本假设条件下,对一元线性回归模型: Yi 0 1 X i ui
随机抽取n组样本观测值(Xi, Yi)(i=1,2,…n)。
假如模型的参数估计量已经求得,为 那么Yi服从如下的正态分布:
3、总体回归函数(PRF) 回归分析关心的是根据解释变量的已知或给
定值,考察被解释变量的总体均值,即当解 释变量取某个确定值时,与之统计相关的被 解释变量所有可能出现的对应值的平均值。
E (Y | X i ) f ( X i )
例1 一个假想的社区有100户家庭组成,要研究 该社区每月家庭消费支出Y与每月家庭可支配收 入X的关系。 即如果知道了家庭的月收入,能否 预测该社区家庭的平均月消费支出水平。 为达到此目的,将该100户家庭划分为组内 收入差不多的10组,以分析每一收入组的家庭消 费支出。
注意 ①不线性相关并不意味着不相关。 ②有相关关系并不意味着一定有因果关系。 ③相关分析对称地对待任何(两个)变量,两 个变量都被看作是随机的。回归分析对变量 的处理方法存在不对称性,即区分应变量 (被解释变量)和自变量(解释变量):前 者是随机变量,后者不是。
回归分析构成计量经济学的方法论基础,其主要内 容包括: (1)根据样本观察值对经济计量模型参数进行估 计,求得回归方程; (2)对回归方程、参数估计值进行显著性检验; (3)利用回归方程进行分析、评价及预测。
第三章 经典单方程计量经济学模型: 双变量线性回归模型
一、回归分析概述 二、双变量线性回归模型的参数估计 三、最小二乘估计量的性质 四、拟合优度的测度 五、双变量回归中的区间估计和假设检验 六、双变量线性回归模型的应用——预测 小结:本章知识结构图
计量经济学(第四版)习题参考答案

第一章 绪论1.1 一般说来,计量经济分析按照以下步骤进行:(1)陈述理论(或假说) (2)建立计量经济模型 (3)收集数据(4)估计参数 (5)假设检验 (6)预测和政策分析 1.2 我们在计量经济模型中列出了影响因变量的解释变量,但它(它们)仅是影响因变量的主要因素,还有很多对因变量有影响的因素,它们相对而言不那么重要,因而未被包括在模型中。
为了使模型更现实,我们有必要在模型中引进扰动项u 来代表所有影响因变量的其它因素,这些因素包括相对而言不重要因而未被引入模型的变量,以及纯粹的随机因素。
1.3时间序列数据是按时间周期(即按固定的时间间隔)收集的数据,如年度或季度的国民生产总值、就业、货币供给、财政赤字或某人一生中每年的收入都是时间序列的例子。
横截面数据是在同一时点收集的不同个体(如个人、公司、国家等)的数据。
如人口普查数据、世界各国2000年国民生产总值、全班学生计量经济学成绩等都是横截面数据的例子。
1.4 估计量是指一个公式或方法,它告诉人们怎样用手中样本所提供的信息去估计总体参数。
在一项应用中,依据估计量算出的一个具体的数值,称为估计值。
如Y 就是一个估计量,1nii YY n==∑。
现有一样本,共4个数,100,104,96,130,则根据这个样本的数据运用均值估计量得出的均值估计值为5.107413096104100=+++。
第二章 计量经济分析的统计学基础2.1 略,参考教材。
2.2N SS x ==45=1.25 用α=0.05,N-1=15个自由度查表得005.0t =2.947,故99%置信限为x S t X 005.0± =174±2.947×1.25=174±3.684也就是说,根据样本,我们有99%的把握说,北京男高中生的平均身高在170.316至177.684厘米之间。
2.3 原假设120:0=μH备择假设120:1≠μH检验统计量()10/25XX μσ-Z ====查表96.1025.0=Z 因为Z= 5 >96.1025.0=Z ,故拒绝原假设, 即此样本不是取自一个均值为120元、标准差为10元的正态总体。
线性回归模型双变量线性回归模型

3.相关程度的度量—相关系数
总体线性相关系数:
Cov( X ,Y )
Var( X )Var(Y )
其中:Var(X ) ——X 的方差;Var(Y ) ——Y的方差
Cov( X ,Y ) ——X和Y的协方差
样本线性相关系数:
XY
__
__
( Xi X )(Yi Y )
__
__
( Xi X )2 (Yi Y )2
回归的现代意义: 一个应变量对若干解释变量 依存关系 的研究
回归的目的(实质): 由固定的解释变量去 估计应变量的平均值
注意几个概念
● Y 的条件分布
当解释变量 X 取某固定值时(条件),Y 的值不 确定,Y 的不同取值形成一定的分布,即Y 的条
件分布。
Y
● Y 的条件期望
对于 X的每一个取值, 对 Y 所形成的分布确
2110 2225 2319 2321 2365 2398 2487 2513 2538 2567 2610 2710
2388 2426 2488 2587 2650 2789 2853 2934 3110
1650 1900 2150 2400 2650
5000 2464 2589 2790 2856 2900 3021 3064 3142 3274
均值 E(Y的X偏i )差为 , 显u然i 是随机变u i量,则有
ui Yi E(Yi Xi ) Yi 1 2 Xi
或 Yi 1 2 Xi ui
•
ui
•
Xi X
3.如何理解总体回归函数
●实际的经济研究中总体回归函数通常是未知的, 只能根据经济理论和实践经验去设定。“计量” 的目的就是寻求PRF。
计量经济学ch3 双变量回归的估计

∑ sd (βˆ2 ) = var(βˆ2 ) = σ / xi2
同理,有
(3.12)
∑ ∑ var(βˆ1) = n
X
2 i
xi2
σ
2
⇒
sd (βˆ1 )
=σ
X
2 i
,
n xi2
(3.13)
总体方差σ 2 和标准差σ 是未知的,故需要用样本予以估计:
uˆi = yi − βˆ2 xi = β2 xi + (ui − u ) − βˆ2 xi = (β2 − βˆ2 )xi + (ui − u )
uˆ
2 i
)
/
∂βˆ
2
=
∂(
(Yi − βˆ1 − βˆ2 X i )2 ) / ∂βˆ2 = −2
(Yi − βˆ1 − βˆ2 X i )X i = −2
uˆi X i = 0
由此得到
∑ ∑ (Yi − βˆ1 − βˆ2 Xi ) = uˆi = 0 ∑ ∑ (Yi − βˆ1 − βˆ2 Xi )Xi = uˆi Xi = 0
6
为什么如此要求?
8.X 值要有变异性,即对于一个给定的样本,X 的值不能全部相同, 也就是说,X 的方差必须是一个有限的正数。
为什么如此要求?
9.正确设定了模型,或者说,所用的模型不存在设定误差。 所谓设定问题,在本书中包括: (1)模型应包括哪些变量, (2)模型的函数形式(如线性还是非线性), (3)对模型的变量和扰动应有哪些假定等。
E(kiui ) = 0)
3. βˆi (i = 1,2) 在所有线性无偏估计量中具有最小方差 (具有最小方差
的估计量称为有效估计量)。
第三章 双变量回归模型-估计问题

RSS) 则表示残差平方和(residual sum of squares, 则表示残差平方和
• n-2 是被称为自由度 是被称为自由度(degrees of freedom, df)的个数 的个数 •
1-21
的性质: 第四节 OLS的性质:高斯 马尔科夫定理 的性质 高斯-马尔科夫定理
(
)
(
)
(1)
(
)
(
)
(2)
1-8
正规方程(normal equations)及其解 正规方程 及其解
ˆ ˆ ∑ Yi = n β 1 + β 2 ∑ X i ˆ ˆ Y i X i = β 1 ∑ X i + β 2 ∑ X i2 ∑
ˆ = n ∑ X iYi − ∑ X i ∑ Yi = β2 n ∑ X i2 − ( ∑ X i ) 2 ˆ ˆ β1 = Y − β 2 X
ˆ var( β 2 ) = ˆ se ( β 2 ) =
∑
σ
x i2 x i2
σ
2 i 2 i
∑ ˆ )= ∑ X σ var( β n∑ x ˆ )=σ ∑ X se ( β n∑ x
1 1
2
2 i 2 i
1-20
第三节 OLS 估计的精度
σ
•
2
的估计
ˆ σ2 =
ui的 σ 2的OLS估计量
ˆ ˆ E β1 = β1 , E β 2 = β 2
量中具有最小方差
1-22
拟合优度的度量: 第五节 拟合优度的度量:判定系数 r2
拟合优度( 拟合优度(goodness of fit)是指样本回归线与样本 ) 观测值之间的拟合程度。 观测值之间的拟合程度。 判定系数r 判定系数 2 (Coefficient of determination)或R2 就 或 是衡量样本回归线对数据拟合程度的总度量。 是衡量样本回归线对数据拟合程度的总度量。 如何计算呢? 如何计算呢?
3.双变量回归模型(缩略版60页)

(
)
2
(
ˆ ui2
)
∂∑ ˆ ∂β
(
1
ˆ ui2
)
ˆ ˆ ∂∑ Yi − β1 − β2 Xi = ˆ ∂β
(
)
2
ˆ ˆ = −2∑ Yi − β1 − β2 Xi
(
)
2
ˆ ˆ ∂∑ Yi − β1 − β2 Xi = ˆ ∂β
2
(
1
)
2
ˆ ˆ = −2∑ Yi − β1 − β2 Xi Xi
(
)
一阶条件
确定性关系:函数关系。例如物理学中的各种
定律。
F = k (m1m2 / r )
2
2
回归与因果关系
回归分析研究因变量对于解释变量的统计依 赖关系,但并不一定意味着因果关系。一个 统计关系式,不管多强和多么具有启发性, 都永远不能确立因果联系。 因果关系的确立必须来自于统计关系以外, 最终来自于这种或那种理论(先验的或是理 论上的)。
27
三、最小方差性
∑xi yi = ∑k Y ˆ β2 = i i 2 ∑xi
构造另一线性无偏估计量β = ∑wiYi
* 2
满足E 满足E(β
* 2) =
β2
2
可以证明 : ˆ ) ≤ var( β*) var( β
2
28
正态性假定下OLS估计量的概率分布 ˆ = k Y,其中k = xi β2 ∑ i i i 2 ∑xi ˆ β2 = ∑ki (β1 + β2 Xi + ui )
23
一、线性
∑xi yi = ∑ xi y = ∑( xi )(Y −Y ) ˆ β2 = i 2 2 i 2 ∑xi ∑xi ∑xi xi = ∑kiYi − ∑kiY ki = 2 ∑xi = ∑kiYi −Y ∑ki = ∑kiYi
第二章 线性回归的思想:双变量回归模型

二、总体回归函数
从图2.2我们可以看出,条件均值E (Y/Xi)是Xi 的函数,即:
E(Y/Xi)= f (Xi)
(2.1)
其中,f (Xi)表示解释变量Xi 的某个函数 。在我们的引例中,E(Y/Xi)是Xi 的一个线 性函数。
式(2.1)就是总体回归函数,简称 总体回归。它表明在给定Xi 下Y 的分布 的总体均值与Xi有函数关系,就是说它 给出了Y 的均值是怎样随X 值的变化而 变化的。
2.在经济学中,经济学家要研究个人
消费支出与个人可支配收入的依赖关系。
这种分析有助于估计边际消费倾向,就是
可支配收入每增加一元引起消费支出的平
均变化。
3.在企业中,我们很想知道人们对企
业产品的需求与广告费开支的关系。这种
研究有助于估计出相对于广告费支出的需
求弹性,即广告费支出每变化百分之一的
需求变化百分比,这有助于制定最优广告
函数f (Xi)采取什么函数形式,是一个
需要解决的重要问题。在实际经济系统
中,我们不会得到总体的全部数据,因
而就无法据已知数据确定总体回归函数 的函数形式。同时,对总体回归函数的 形式只能据经济理论与经验去推断。
例如,我们可以假定消费支出与收入有 线性关系。则总体回归函数为
E(Y / X i ) 1 2 X i
有异,但图2.2清楚地表明随着收入的增
加,消费支出平均地说也在增加。就是
说,散点图启示我们,Y 的条件均值随X
的增加而增加。
如果我们观察图2.2中那些代表Y 的
各个条件均值的粗圆点,则表明这些条
件平均值落在一根有正斜率的直线上。
我们称这根直线叫做总体回归线,它是
Y 对X 的回归。
第3章 双变量回归模型:估计问题.ppt

() 式乘以 Xi ,() 式乘以n,得
请大家自己推导一次
贵州财经大学经济研究所 白万平 教授
Xi
Yi ˆ1n
X i ˆ2
2
Xi
(1)
n X i Yi ˆ1n X i ˆ2n X i 2 (2)
(2)-(1)得 :
n X iYi X i Yi ˆ2[n X i 2 X i 2 ]
贵州财经大学经济研究所 白万平 教授
假定5:各个干扰之间无自相关
给定任意两个X值,Xi和Xj,ui和uj之间的相关为零
注:
xi yi (Xi X )(Yi Y ) XiYi X Yi Y Xi nXY
其中 Xi nX Yi nY
上式 XiYi 2nXY nXY
n X iYi nXY
X iYi X i n
Yi
xi2 (Xi X )2 Xi2 2X Xi nX 2
Xi nX
上式
Xi2 2nX 2 nX 2
n Xi 2 nX 2
Xi2 n
2
Xi
贵州财经大学经济研究所 白万平 教授
返回
OLS估计量的数值性质:
Ⅰ.OLS估计量是纯粹可以用可观测的样本量(指X和Y)表达的, 因此,这些量是比较容易计算的
可以表达为离差形式(deviation form):
yi ˆ2 xi uˆi
证明: 我们已知有:
Y ˆ1 ˆ2 X
(2.6.2)式减去(3.1.12)式得:
(Yi Y ) ˆ2 (Xi X ) uˆi
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
当数据为时间序列时,往往用下标 t来表示观测 值的序号,从而(3)式变成 Yt = + Xt + ut , t = 1, 2, ...,n (3’)
为何要在模型中包括扰动项u
我们在上一章中已初步介绍了为什么要在模型中包 括扰动项u,下面进一步说明之: (1)真正的关系是Y = f (X1, X2,… X ),但X2, X3,…, X 相对不重要,用u代表之。 (2)两变量之间的关系可能不是严格线性的,u反 映了与直线的偏差。 (3)经济行为是随机的,我们能够用 Y=α+βX 解释“典型”的行为,而用u来表示个体偏差。 (4)总会出现测量误差, 使得任何精确的关系不 可能存在。
Y
Yt
* * *
** * *
ˆX ˆ ˆ Y
ˆ Y t
et
* *
*
* * * *
*
*
*
Xt 图2
X
残差
ˆX 称为拟合的回归线. ˆ ˆ 拟合的直线 Y
对于任何数据点 (Xt, Yt), 此直线将Yt 的总值 分成两部分。
ˆ: 第一部分是Yt的拟合值或预测值 Y t
ˆX , ˆ ˆ Y t t
=β
ˆ 是β的无偏估计量。 这表明,
ˆ 无偏性的过程中, 我们仅用到(1)和(4)两 在证明 条假设条件。
ˆ X ,我们有: 由 ˆ Y
ˆX) ˆ ) E (Y E (
ˆX) E ( X u
ˆ) X E (u ) X E (
设我们有Y和X的n对观测值数据,则根据(2)式, 变量Y的每个观测值应由下式决定:
Yi = + Xi + ui , i = 1, 2, ...,n (3)
(3)式称为双变量线性回归模型或简单线性回归模 型。其中 和 为未知的总体参数,也称为回归模型 的系数( coefficients)。下标 i是观测值的序号。
估计方程为
ˆ 10.3 0.39 X Y t t
第二节 最小二乘估计量的性质
ˆ和 ˆ 的均值 一.
ˆ
由于
x y x
t 2 t
t
x (Y Y ) x Y x x
t t 2 t 2 t
t t
Y xt
2 x t
x (X
t
t
X ) Xt X nX nX 0
2 ˆ e ( Y Y ) t t t 2
15
最小二乘法
最小二乘法就是选择一条直线,使其残差平方和达 ˆ ,使得 ˆ 和 到最小值的方法。即选择
S et
2
2 ˆ (Yt Yt )
ˆX ) 2 ˆ (Yt t
达到最小值。
运用微积分知识,使上式达到最小值的必要条件 为:
一. 双变量线性回归模型的概念
设 Y = 消费, X = 收入, 我们根据数据画出散点图 Y * * * * 图1 X * 这意味着 Y = + X (1) 写出计量经济模型 Y = + X + u (2) 其中 u = 扰动项或 误差项 Y为因变量或被解释变量 X为自变量或解释变量 和 为未知参数
2 t 2 t
t tt t我们有:ˆ ) (2
xu ( x
t 2 t
t
)
2
1 2 ( x u x u ... x u ) 1 1 2 2 n n 2 2 ( xt )
1 2 2 ( x u xi x j uiu j ) 2 2 i i ( xt ) i j
双变量线性回归模型
(简单线性回归模型)
(Simple Linear Regression Model)
第一节 双变量线性回归模型的估计
第二节 最小二乘估计量的性质
第三节 拟合优度的测度
第四节 双变量回归中的区间估计和假 设检验
第五节 预测
第六节 有关最小二乘法的进一步讨论
第一节 双变量线性回归模型的估计
二. 普通最小二乘法(OLS法, Ordinary Least squares)
1.双变量线性回归模型的统计假设 我们的模型是: Yt = + Xt + ut , t = 1, 2, ...,n 这里 和 为未知总体参数,下一步的任务是应 用统计学的方法,由Y和X的观测值(即样本数据) 来估计和 的总体值,常用的估计方法就是最小二 乘法。为了应用最小二乘法,得到好的估计量,双 变量线性回归模型需要满足一些统计假设条件,这 些统计假设是:
——根据假设(2)
2 1 2 2 所以 E ( ˆ )2 ( x 0) 2 2 i 2 ( xt ) x t
即
ˆ) Var (
yt Yt Y
-8 -4 1 3 8
xt X t X
-20 -10 0 10 20
xt yt
160 40 0 30 160
xt
2
400 100 0 100 400 1000
110
150
0
0
390
Y
X 150 Y 110 X 30 22 n 5 n 5 ˆX 22 0.39 30 10.3 ˆ xt yt 390 0.39 ˆ Y 2 xt 1000
(3)E(ut2)= 2, t=1,2,…,n
即各期扰动项的方差是一常数,也就是假定各扰 动项具有同方差性。 实际上该假设等同于: Var( ut) = 2, t=1,2,…,n 这是因为: Var(ut)=E{[ut-E(ut)]2}= E(ut2) ——根据假设(1)
(4) Xt为非随机量 即Xt的取值是确定的, 而不是随机的。 事实上,我们后面证明无偏性和时仅需要解释变 量X与扰动项u不相关,但不容易验证之,因而通常采 用非随机量的假设。
两边取期望值,得:
2 ˆ E ( )
1 2 2 [ x E (ui ) xi x j E (uiu j )] 2 2 i ( xt ) i j
由于
E (ut2 ) 2 , t 1, 2,......, n E (ui u j ) 0, i j
——根据假设(3)
1 2 ( x t X xt xt ut ) 2 xt
1 2 ( x t xt ut ) 2 xt
即
ˆ
x u x
t 2 t
t
两边取期望值,有:
x E ( u ˆ) E( x
t 2 t t
)
——假设(4) ——假设(1)
X X
ˆ 是 的无偏估计量。 即
ˆ 和 二. ˆ 的方差
ˆ ) E{[ ˆ E( ˆ )]2 } Var ( ˆ )2 E (
——根据定义
——由无偏性
ˆ) E (
x u ˆ 由上段结果: x x u ˆ 即 x
从而
x Y ˆ x
2 t
t t
x ( X x
t 2 t
t
ut )
ˆ
x Y x
2 t
t t
x ( X x
t 2 t
t
ut )
1 ( xt xt X t xt ut ) 2 xt 1 ( xt X t xt ut ) 2 xt
此二式称为正规方程。解此二方程,得:
(3) (4)
ˆ
( X X )(Y Y ) x y (X X ) x
t t t 2 2 t t
t
(5) (6)
ˆX ˆ Y
Y 其中: Y
t
n xt X t X ,
,
X X n
t
样本均值 离差
y t Yt Y
因而
例2 设Y和X的5期观测值如下表所示,试估计方程 Yt = + Xt + ut
序号
1 2 3 4 5
Yt Xt
14 10
18 20
23 30
25 40
30 50
解:我们采用列表法计算。计算过程如下:
Yt
1 2 3 4 5 Σ 14 18 23 25 30
Xt
10 20 30 40 50
双变量线性回归模型的统计假设
(1). E(ut) = 0, t= 1, 2, ...,n 即各期扰动项的均值(期望值)为0. (2). E(uiuj) = 0 i j 即各期扰动项互不相关. (3). E(ut2 ) = 2 , t= 1, 2, ...,n 即各期扰动项方差是一常数. (4). 解释变量Xt 为非随机量 即Xt的取值是确定的, 而不是随机的. (5). ut ~ N( 0, 2 ) , t= 1, 2, ...,n 即各期扰动项服从正态分布。
(2)E(uiuj) = 0, i≠j
即各期扰动项互不相关。也就是假定它们之间无 自相关或无序列相关。 实际上该假设等同于: cov( ui, uj) = 0, i≠j
这是因为:cov(ui, uj) = E{[ui - E(ui)][uj - E(uj)]} = E(uiuj) ——根据假设(1)
S S 0 ˆ ˆ
即
S ˆX ) 0 ˆ 2(1)(Yt t ˆ S ˆX ) 0 ˆ 2( X t )(Yt t ˆ
(1) (2)
整理,得:
ˆ X ˆ Y n t t ˆ X 2 ˆ X Y X t t t t
下面简单讨论一下上述假设条件。
(1)E(ut) = 0, t=1,2,…,n 即各期扰动项的均值(期望值)均为0。 均值为 0 的假设反映了这样一个事实:扰动项被假 定为对因变量的那些不能列为模型主要部分的微小影 响。没有理由相信这样一些影响会以一种系统的方式 使因变量增加或减小。因此扰动项均值为 0 的假设是 合理的。