双变量回归模型

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

双变量回归模型

一个人为的例子

●研究每周家庭消费支出Y对可支配收入X的关系。

●将家庭划分为收入差不多的10组。

每周家庭收入（美元）

●表格给出了以X的定值为条件的Y的条件分布。

●计算给定X的Y的概率，即P（Y/X）。

●计算条件均值，即E（Y/X=

X）

●作图

●平均的说，随着X 的增加，Y也在增加。

● 条件均值落在一根有正斜率的直线上，总体回归线（population regression line ）, Y 对X 的回归。 ● 对每一个i

X 都有Y 值的一个总体和相应的均值，回

归线是穿过了这些条件均值的线。

总体回归函数（PRF ）的概念

● 图中看到，每一条件均值E （Y/i

X ）都是i

X 的一个

函数，并且是线性函数。

i i i X X f X Y E 21)()/(ββ+==

● 1β和2β是未知但固定的参数，被分别称为截距和斜率参数。

“线性”一词的含义

● 对变量为线性

非线性的例子：2

21)/(i i X X Y E ββ+=

● 对参数为线性

非线性的例子：i i X X Y E 21)/(ββ+= ● 本课程中，只对参数是线性的。

PRF 的随机设定

● 随着家庭收入的增加，家庭消费平均的说也增加。 ● 但某一个别家庭的消费支出却不一定。

● 个别家庭的消费支出聚集在收入为Ｘｉ的所有家庭的平均消费支出的周围。

i i u X Y E Y +=)/(

● E(Y/X i )代表相同收入水平的所有家庭的平均消费支出，称为系统性（systematic ）成分，ｕｉ称为随机或非系统性(non-systematic)成分。 ● 假定E(Y/X i )是对Ｘｉ为线性的，则

i i i i i u X u X Y E Y ++=+=21)/(ββ

● 0)/(=i i X u E

随机干扰项的意义

１．理论的含糊性２．数据的欠缺３．核心变量与周边变量４．人类行为的内在随机性５．糟糕的替代变量６．节省原则

７．错误的函数形式

样本回归函数

●以上讨论局限在与Ｘ值相对应的Ｙ值总体

●现在我们考虑抽样问题

样本：

ＹＸ

７０８０

６５１００

９０１２０

９５１４０

１１０１６０

１１５１８０

１２０２００

１４０２２０

１５５２４０

１５０２６０

●我们能从样本预测整个总体中对应于选定Ｘ的平均

每周消费支出Ｙ吗？

●从Ｎ个不同的样本会得到Ｎ个不同的ＳＲＦ，并且这

些ＳＲＦ不大会是一样的。

● 能不能设计一种规则使ＳＲＦ尽可能的“接近”ＰＲＦ

● 样本回归函数（sample regression function, SRF ）

i X Y 21ˆˆˆββ+= ● SRF 随机形式：

i i

i u X Y ˆˆˆ21++=ββ ● 回归分析的主要目的是根据i i

i u X Y ˆˆˆ21++=ββ来估计i i i u X Y ++=21ββ

● 图形

普通最小二乘法 ●

i i X Y Y u 21i ˆˆY ˆˆββ--=-= ● 选择一个ＳＲＦ，使得残差和)ˆ(ˆi

i i Y Y u -=∑∑尽可能小（图）

● 但正负残差可以相互抵消

● 最小二乘准则是要定出ＳＲＦ使得：

21i 22)(Y )ˆ(ˆi i

i i X Y Y u ββ--=-=∑∑∑

消费-收入的例子中，估计到的结果：

i X Y 5091.04545.24ˆ+=

- OLS 估计量是由可观测的量（X 和Y ）表达的，因此这些量是可以计算的 - 这些量是点估计量

● 回归线的性质：

１．它通过Ｙ和Ｘ的样本均值。

２．估计的Ｙ（＝i

Y ˆ）等于实测的Ｙ均值３．残差i u ˆ的均值为零。４．离差形式

５．残差i u

ˆ和预测的Ｙｉ值不相关６．残差i u ˆ和Ｘｉ不相关

最小二乘法的基本假定

● 回归分析的目的是从1ˆβ和2ˆβ推断1β和2

β ● 需要对Ｙｉ的产生方式作出某些假定。

经典线性回归模型（ＣＬＲＭ）１０个假设：１．线性回归模型。回归模型对参数是线性的。

２．在重复抽样中Ｘ是固定的，即假定Ｘ是非随机的。

３．干扰项ｕｉ的均值为零，即ｕｉ的条件均值为零，

0)/(=i i X u E

围绕均值分布，正负相抵，u 对Y 没有影响。４．同方差性或ｕｉ的方差相等。

2i 2 )/E(u ]/)([)/(σ==-=i i i i i X X u E u E X u Var

Homoscedasticity and Heteroscedasticity (图形 )

方差随收入增加而增加，富裕家庭的方差大，可靠性则越来越小。

５．各个干扰项之间无自相关。

)/()/E(u ]/)(][/)([),/,cov(i ==--=j j i j j j i i i j i j i X u E X X u E u X u E u E X X u u

无序列相关，正相关，负相关。（图形）

６． U i 和X i 的协方差为零。

0),(=i i X u Cov

- 干扰u 和变量X 是不相关的

- 因为如果u 和X 相关，就不可能评价它们各自对Y 的影响。

7. 观测次数n 必须大于待估计的参数个数。换言之，观测次数必须大于解释变量的个数。