双变量回归模型

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

双变量回归模型

一个人为的例子

●研究每周家庭消费支出Y对可支配收入X的关系。

●将家庭划分为收入差不多的10组。

每周家庭收入(美元)

●表格给出了以X的定值为条件的Y的条件分布。

●计算给定X的Y的概率,即P(Y/X)。

●计算条件均值,即E(Y/X=

X)

i

●作图

●平均的说,随着X 的增加,Y也在增加。

● 条件均值落在一根有正斜率的直线上,总体回归线(population regression line ), Y 对X 的回归。 ● 对每一个i

X 都有Y 值的一个总体和相应的均值,回

归线是穿过了这些条件均值的线。

总体回归函数(PRF )的概念

● 图中看到,每一条件均值E (Y/i

X )都是i

X 的一个

函数,并且是线性函数。

i i i X X f X Y E 21)()/(ββ+==

● 1β和2β是未知但固定的参数,被分别称为截距和斜率参数。

“线性”一词的含义

● 对变量为线性

非线性的例子:2

21)/(i i X X Y E ββ+=

● 对参数为线性

非线性的例子:i i X X Y E 21)/(ββ+= ● 本课程中,只对参数是线性的。

PRF 的随机设定

● 随着家庭收入的增加,家庭消费平均的说也增加。 ● 但某一个别家庭的消费支出却不一定。

● 个别家庭的消费支出聚集在收入为Xi的所有家庭的平均消费支出的周围。

i

i i u X Y E Y +=)/(

● E(Y/X i )代表相同收入水平的所有家庭的平均消费支出,称为系统性(systematic )成分,ui称为随机或非系统性(non-systematic)成分。 ● 假定E(Y/X i )是对Xi为线性的,则

i i i i i u X u X Y E Y ++=+=21)/(ββ

● 0)/(=i i X u E

随机干扰项的意义

1.理论的含糊性 2.数据的欠缺 3.核心变量与周边变量 4.人类行为的内在随机性 5.糟糕的替代变量 6.节省原则

7.错误的函数形式

样本回归函数

●以上讨论局限在与X值相对应的Y值总体

●现在我们考虑抽样问题

样本:

YX

7080

65100

90120

95140

110160

115180

120200

140220

155240

150260

●我们能从样本预测整个总体中对应于选定X的平均

每周消费支出Y吗?

●从N个不同的样本会得到N个不同的SRF,并且这

些SRF不大会是一样的。

● 能不能设计一种规则使SRF尽可能的“接近”PRF

● 样本回归函数(sample regression function, SRF )

i

i X Y 21ˆˆˆββ+= ● SRF 随机形式:

i i

i u X Y ˆˆˆ21++=ββ ● 回归分析的主要目的是根据i i

i u X Y ˆˆˆ21++=ββ来估计i i i u X Y ++=21ββ

● 图形

普通最小二乘法 ●

i

i

i i X Y Y u 21i ˆˆY ˆˆββ--=-= ● 选择一个SRF,使得残差和)ˆ(ˆi

i i Y Y u -=∑∑尽可能小(图)

● 但正负残差可以相互抵消

● 最小二乘准则是要定出SRF使得:

2

21i 22)(Y )ˆ(ˆi i

i i X Y Y u ββ--=-=∑∑∑

消费-收入的例子中,估计到的结果:

i

i X Y 5091.04545.24ˆ+=

- OLS 估计量是由可观测的量(X 和Y )表达的,因此这些量是可以计算的 - 这些量是点估计量

● 回归线的性质:

1.它通过Y和X的样本均值。

2. 估计的Y(=i

Y ˆ)等于实测的Y均值 3. 残差i u ˆ的均值为零。 4. 离差形式

5. 残差i u

ˆ和预测的Yi值不相关 6. 残差i u ˆ和Xi不相关

最小二乘法的基本假定

● 回归分析的目的是从1ˆβ和2ˆβ推断1β和2

β ● 需要对Yi的产生方式作出某些假定。

经典线性回归模型(CLRM)10个假设: 1. 线性回归模型。回归模型对参数是线性的。

2. 在重复抽样中X是固定的,即假定X是非随机的。

3. 干扰项ui的均值为零,即ui的条件均值为零,

0)/(=i i X u E

围绕均值分布,正负相抵,u 对Y 没有影响。 4. 同方差性或ui的方差相等。

2

2i 2 )/E(u ]/)([)/(σ==-=i i i i i X X u E u E X u Var

Homoscedasticity and Heteroscedasticity (图形 )

方差随收入增加而增加,富裕家庭的方差大,可靠性则越来越小。

5. 各个干扰项之间无自相关。

)/()/E(u ]/)(][/)([),/,cov(i ==--=j j i j j j i i i j i j i X u E X X u E u X u E u E X X u u

无序列相关,正相关,负相关。(图形)

6. U i 和X i 的协方差为零。

0),(=i i X u Cov

- 干扰u 和变量X 是不相关的

- 因为如果u 和X 相关,就不可能评价它们各自对Y 的影响。

7. 观测次数n 必须大于待估计的参数个数。换言之,观测次数必须大于解释变量的个数。

相关文档
最新文档