高级计量经济学第二章 回归分析与模型设定 PPT课件

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
given X
• X= i xi(xi) =population mean of X • Y|X= j yi(yj|xi) =population conditional mean of Y
given X
Y|x=E(Y|X)=F(X)
mY|x=f(X)
Question: how to get f(x)?
• Var(Y|X)= E{[Y-E(Y|X)]2|X}
= E{[0+(1+2)X+-(0+1X)]2|X} = E[(2X+)2|X] = E[(2X+1)22|X] = (1+2X)2E(2|X)= (1+2X)22
注意:
该例解释了为什么Y的条件方差可能依赖 X。
事实上,上述过程可写为
其中
Y=0+1X+
Y在 X=x 的条件密度函数( conditional pdf ):
fY|X(y|x)=f(x,y)/fX(x)
条件 pdf fY|X(y|x) 完全描述了Y 对 X的依赖关系。
已知条件 pdf, 可计算:
• 条件期望(The conditional mean)
E(Y | x) E(Y | X x) yfY|X ( y | x)dy
一、 建立条件期望 E(Y|X)的模型
总地说来, 有2种最基本的方法: (a) 非参数法(Nonparametric approach) (b) 参数法(Parametric approach) 在经典计量经济学中, 我们只关注参数方法:
By restricting the class of functions F, we solve the MSE-minimization problem
x)
E[(Y E(Y [Var(Y |
| x))3 x)]3/ 2
|
x]பைடு நூலகம்
• 条件峰度 (The conditional kurtosis)
K (Y
|
x)
E[(Y E(Y [Var(Y |
| x))4 x)]4/ 2
|
x]
§2.2 回归分析 Regression Analysis
一、回归函数及其性质
注意:计量经济方法往往视是否存在条件异方差 而有所不同。
Example: 设
Y=0+(1+2)X+ 其中 X 与 相互独立, 且 E()=0, Var()=2。求 E(Y|X) 及 Var(Y|X).
• E(Y|X)= 0+E[(1+2)X|X]+E(|X) = 0+1X+2XE(|X)+E(|X) = 0+1X+2X·0+0 = 0+1X
•如果经济理论表明: Y|x=+X 但表2.1显示 mY|X 并非一条直线 - 我们是保持 mY|X 的原样呢? 还是对样本的 mY|X
通过一条直线来平滑:
m*Y|X=a+bX -如果用平滑线, 如何寻找该直线?
-用平滑线估计总体均值,要比样本均值估计效 果更好吗? •如果经济理论表明: Y|X=X
mY|x=f(X)
We hope the SRF is a good estimate of the PRF.
Y
PRF
SRF
X
A simple illustration: how to find the sample mean
表 2.1 是1960年美国1027个家庭关于收入与储蓄率 的联合频率分布.
- 如何寻找该曲线(curve)? 平滑的样本曲线 m*Y|X 仍 能告知有关 Y|X的相关信息吗?
二、条件分布
假设(X,Y)的联合概率密度函数( joint probability density function , pdf) 为 f(x,y) ,则
X的边际密度函数(marginal pdf ): fX(x) =f(x,y)dy
第二章 回归分析与模型设定
General Regression Analysis and Model Specification
§2.1 回归分析:问题的引入
egression Analysis: Introduction
回归分析(Regression Analysis):一种最常用的 统计分析工具,用来分析一个变量关于其他变量的 依赖关系。 X 与 Y间的回归关系可用来研究X对Y 的影响,或用X来预测Y。 一、 总体均值与样本均值
=(1+2X) 易知
E(Y|X) = 0+1X +(1+2X)E(|X)= 0+1X Var(Y|X) = (1+2X)2Var(|X)= (1+2X)22
§2.3 线性回归模型 Linear Regression Modeling
但总起来看, 回归函数 E(Y|X) 的函数形式未知。 Question: How to model E(Y|X)?
(c) E(|X)=0 意味着 E()=E[E(|X)]=0
且 E(X)=E[E(X|X)]=E[XE(|X)]=E[X·0]=0
(d) 可能存在 E(|X)=0 但 Var(|X) 是X的函数。 如果 Var(|X)=2>0, 称 是条件同方差的 (conditional homoskedasticity). 否则, 如果 Var(|X)=2(X), 称存在条件异方差 (conditional heteroskedastisity)
定义 [Regression Function]: 称条件期望 E(Y|X) 为Y关于 X 的回归函数(regression function )。
• What statistical properties does E(Y|X) process?
Lemma [Law of iterated expectation]: E[E(Y|X)]=E(Y)
例: 设 Y=工资, X=1 (女性) and X=0 (男性),则 E(Y|X=1) = 女性员工平均工资 E(Y|X=0) = 男性员工平均工资
E[E(Y|X)] =P(X=1)·E(Y|X=1)+P(X=0)·E(Y|X=0) = 全体平均工资 =E(Y)
Question: Why is E(Y|X) important from a statistical Perspective?
mY|xi
j
y j p( y j | xi )
j
yj
p(xi , y j ) p(xi )
Conditional mean function of Y on X
mY|X
Savings Rate
-0.05 0.00 0.05 0.10 0.15 0.20
0.5 1.5 2.5 3.5 4.5 5.5 6.7 8.8 12.5 17.5 Income(thousands of dollars)
• 条件方差(The conditional variance)
Var(Y | x) Var(Y | X x)
[ y E(Y | x)]2 fY|X ( y | x)dy
E(Y 2 | x) [E(Y | x)]2
• 条件偏度 (The conditional skewness)
S (Y
|
Y 0.50 0.40 0.25 0.15 0.05 0.00 -0.05 -0.18 -0.25 p(x)
0.5 0.001 0.001 0.002 0.002 0.010 0.013 0.001 0.002 0.009 0.041
1.5 0.011 0.002 0.006 0.009 0.023 0.013 0.012 0.008 0.009 0.093
How to find the relationship between X and Y?
理论上应寻找总体回归函数( PRF),即在给定X时, Y的条件均值的函数 :
Y|x=E(Y|X)=F(X)
但我们往往只能得到样本数据。因此自然想到用 样本均值来估计总体均值, 并寻找样本回归函数 (SRF):
12.5 0.014 0.008 0.013 0.024 0.042 0.000 0.004 0.006 0.002 0.113
17.5 0.004 0.007 0.006 0.020 0.007 0.000 0.003 0.002 0.003 0.052
The conditional mean of Y given X=xi is
特别地, 我们通常只用一簇线性函数(linear functions)来近似 g0(X).
当然,可以用类似的方法来建立 g0(X) 的非线性 回归模型(Nonlinear regression models)
对该簇函数,函数形式已知为线性;未知的是
二、回归函数的等价形式
Theorem [Regression Identity]: 给定 E(Y|X), 总有 如下等价式:
Y = E(Y|X)+ = Y-E(Y|X) 这里 称为回归扰动项(regression disturbance)且满足 E(|X)=0
• 证明:
定义 = Y-E(Y|X),则 E(|X)=E{[Y-E(Y|X)]|X}
MSE(g)=E[Y-g(X)]2
• 证明: 使用方差与偏误平方分解技术
记 g0(X)=E(Y|X) 则 MSE(g)=E[Y-g(X)]2
=E[Y-g0(X) + g0(X)-g(X)]2 =E[Y-g0(X)]2 + E[g0(X)-g(X)]2
+2E{[Y-g0(X)][g0(X)-g(X)]} = E[Y-g0(X)]2 + E[g0(X)-g(X)]2 = 方差 + 偏误2 方差测度了Y对其期望真实误差( true error)。 偏误20,且 g(X)=g0(X)时等号成立. 因此,选择 g(X)=E(Y|X) 可使 MSE(g)达到极小。
2.5 0.007 0.006 0.004 0.009 0.033 0.000 0.011 0.013 0.010 0.093
3.5 0.006 0.007 0.007 0.012 0.031 0.002 0.005 0.006 0.006 0.082
X 4.5
0.005 0.010 0.010 0.016 0.041 0.001 0.012 0.009 0.009 0.113
Fig 2.1
同样地,如果可获得总体数据,我们就可得到给出 X值时Y的总体条件均值 (population conditional means )
• (xi,yi) =joint frequencies of the population • (xi)=j (xi,yi) =marginal frequencies of X • (yj|xi)=(xi,yi)/(xi) =conditional frequencies of Y
5.5 0.005 0.007 0.011 0.020 0.029 0.000 0.016 0.008 0.007 0.103
6.7 0.008 0.008 0.020 0.042 0.047 0.000 0.017 0.008 0.005 0.155
8.8 0.009 0.009 0.019 0.054 0.039 0.000 0.014 0.008 0.003 0.155
=E(Y|X) – E(Y|X)=0
• 注意:
(a) 回归函数 E(Y|X)可用来通过X的信息预测Y的 均值;
(b) E(|X)=0 意味着回归误差 不包含X的任何可 用来预测Y的信息。
换言之, 所有可用来预测Y期望值的信息都完全包 含在 E(Y|X)之中。
条件 E(|X)=0 对模型参数经济含义的解释至关重 要(crucial )。
假设我们希望使用X的函数g(X)来预测Y,且使用 均方误( Mean Square Error ,MSE) 准则来评估 g(X) 逼近Y的程度. 则均方误准则( MSE criterion )下 的最优预测就是条件期望E(Y|X).。
• 定义 [MSE]: The mean square error of function g(X) used to pridict Y is defined as
p(xi,yj) =the proportion of the 1027 families who reported the combination (X=xi and Y=yj).
Table 2.1 Joint frequency distribution of X=income and Y=saving rate
相关文档
最新文档