第2章简单回归模型

合集下载

学习笔记：伍德里奇《计量经济学》第五版-第二章简单回归模型

~除了x 以外影响y 的因素？~y 和x 的函数关系？~何以确定在其他条件不变的情况下刻画了y 和x 的关系由以上得简单线性模型（simple linear regression model ）：y = b0+ b1x + u （2.1）y ：因变量x ：自变量u ：误差项（干扰项），即“观测不到的”因素（该模型没有限制x 和u 的关系，因此不能说明x 对y 的影响2.4节是如何解决x 的初始值不同时，同样变化量对y 的影响的？E(u) = 0 (2.5)（代价：方程中要包含截距b0 因为这样可以通过微调截距项来使第一个假定一定成立对u 做的第一个假定：E(u|x) = E(u)(2.6)（前提：u 和x 是随机变量均值独立假定（任何给定x 下u 的平均值都一样）：E(u|x)= 0 （2.7）结合均值独立与均值为0，得零条件期望假定：E(y|x) = b0 + b1x （2.8）（E(y|x)称为总体回归函数（population regression function ，PRF ），说明了y 的均值是如何随着x 的变动而变动的结合方程（2.1）和假定（2.7）得条件均值函数：一、y 和x关系的起点随机变量：具有数值特征并由一个实验决定其结果的变量•（是为了解决协方差受度量单位影响的问题，是协方差的改进）（u 和x 不相关，u 也能和x ²相关，对于大部分回归不行）相关系数（仅衡量线性相关程度）：•yi = b0 + b1xi + ui （2.9)抽取一个容量为n 的随机样本E(u)=0 （2.10）利用Cov(x,u)=E(xu)=0 (2.11)和假定（2.6）得：E(y –b0 –b1x) = 0 （2.12）E[x(y –b0 –b1x)] = 0 （2.13）因此方程（2.10）和（2.11）可写为在样本中就对应和（2.14）（2.15）结合（2.9）的均值形式（2.16）可以解出参变量（实际上就是矩法估计）（）（前提：分母大于0，即样本中所有x 不完全相等（含义：若样本中x 和y 正相关，则斜率系数为正二、普通最小二乘法（如何估计参变量）协方差：•不相关和协方差=0可互推，但不一定独立，独立一定不相关•矩法估计：利用要估计的参数与某种均值的关系，用样本矩代替总体矩u 的解法。

庞浩计量经济学2第二章简单线性回归模型

17
三、总体回归函数
总体回归函数（population regression function，简称PRF）：将总体被解释变量Y的条件均值表现为解释变量X的函数。
E (Y | X i ) f ( X i )
当总体回归函数是线性形式时，
总体回归函数的条件期望表示方式
E (Y | X i ) f ( X i ) 1 2 X i
22
四、随机扰动项u
（一）定义各个被解释变量的个别值与相应的条件均值的偏差，被称为随机扰动项，或随机干扰项（stochastic disturbance），或随机误差项（stochastic error），用u表示。它可正可负，是一个随机变量。
ui Yi E (Y | X i ) Yi E (Y | X i ) ui Yi 1 2 X i ui
消费支出 Y
932
1259 1448 1651 2298 2289 2365 2488 2856 3150
25
Y
SRF1 SRF2
X
26
样本一
Y vs. X 3500 3000 2500 2000 1500 1000 500 0 1000 2000 3000 4000 5000 6000 X 3500 3000 2500 2000 1500 1000 500 0
4
（二）相关关系的种类
⒈按涉及变量的多少分为单相关多重（复）相关
相关关系的种类
⒉按表现形式的不同分为
线性相关
非线性相关正相关负相关完全相关
⒊单相关时，按相关关系的方向不同分为
4.按相关程度的不同分为
Hale Waihona Puke 不完全相关不相关5

第二讲简单回归模型

i 1 i 1 n i 1 n i 1 n
n
( x 2 xi x x ) xi2 2 x xi nx 2 xi2 2nx 2 nx 2 xi2 nx 2 xi ( xi x )
i 1 i 1 n i 1 n i 1 n i 1 i 1 n 2 i 2 n
ˆ ˆ X e Yi 1 2 i i
Yi 1 2 X i ui
ˆ 和 ˆ 的数值，显然: 如果能够通过某种方式获得 1 2 ˆ 和 ˆ 是对总体回归函数参数 1 和的估计 ● 1 2 2
ˆ i是对总体条件期望 E (Yi X i ) 的估计 ● Y
● ei 在概念上类似总体回归函数中的为对 ui 的估计。
i 1 n i 1 2 ˆ xi x yi y 1 xi x i 1 i 1 n
n
计量经济学导论
29
( x x )( y y )
i 1 i i
n
2 ( x x ) i i 1
n
( xi yi xi y xyi xy ) ( xi yi xi y ) xi ( yi y ) yi ( xi x )
dependentvariable因变量lefthandsidevariableexplainedvariable被解释变量regressand回归子17计量经济学导论刘愿我们一般称x为independentvariable自变量righthandsidevariableexplanatoryvariable解释变量controlvariables控制变量18计量经济学导论刘愿简单回归的术语因变量自变量被解释变量解释变量响应变量控制变量被预测变量预测变量回归子回归元19计量经济学导论刘愿simpleassumption一个简单的假设变量u称为errorterm误差项或者disturbance扰动项代表除了x之外影响y的其它因素

庞浩计量经济学第二章简单线性回归模型

最小二乘法的应用
在统计学和计量经济学中，最小二乘法广泛应用于估计线性回归模型，以探索解释变量与被解释变量之间的关系。
通过最小二乘法，可以估计出解释变量的系数，从而了解各解释变量对被解释变量的影响程度。
最小二乘法还可以用于时间序列分析、预测和数据拟合等场景。
最小二乘法的局限性
最小二乘法假设误差项是独立同分布的，且服从正态分布，这在实际应用中可能不成立。
最小二乘法无法处理多重共线性问题，当解释变量之间存在高度相关关系时，最小二乘法的估计结果可能不准确。
最小二乘法对异常值比较敏感，异常值的存在可能导致参数估计的不稳定。
04
模型的评估与选择
R-squared
总结词
衡量模型拟合优度的指标
详细描述
R-squared，也称为确定系数，用于衡量模型对数据的拟合程度。它的值在0到1之间，越接近1表示模型拟合越好。R-squared的计算公式为(SSreg/SStot)=(y-ybar)2 / (y-ybar)2 + (y-ybar)2，其中SSreg是回归平方和， SStot是总平方和，y是因变量，ybar是因变量的均值。
数据来源
本案例的数据来源于某大型电商平台的销售数据，包括商品的销售量、价格、评价等。
数据处理
对原始数据进行清洗和预处理，包括处理缺失值、异常值和重复值，对分类变量进行编码，对连续变量进行必要的缩放和转换。
模型建立与评估
模型建立
基于处理后的数据，使用简单线性回归模型进行建模，以商品销售量作为因变量，价格和评价作为自变量。
线性回归模型是一种数学模型，用于描述因变量与一个或多个自变量之间的线性关系。它通常表示为：Y = β0 + β1X1 + β2X2 + ... + ε

第2讲简单回归模型

SST = SSE = SSR =
∑
n
n
i =1
(Y i − Y ) 2 (Y i − Y ) 2
∧ 2 i ∧
∑
n i =1
i=1
7
总体回归函数
o 总体回归函数（population regression function, PRF）总体回归函数（）
在零条件均值假定下，在零条件均值假定下， E (Y | X ) = E [( β 0 + β 1 X + u ) | X ] = β 0 + β 1 X
β 0 + β 1 X表示 X取某一确定值时 Y的均值，称为系统性成分；的均值，
ˆ ˆ ˆ 定义Yi = β 0 + β 1 X i 为X = X i 时Y的拟合值 ˆ ˆ ˆ ˆ 定义u = Y − Y = Y − β − β X 为X = X 时的残差
i i i i 0 1 i i
ˆ ˆ ˆ 定义Y = β 0 + β 1 X为总体回归函数 E (Y | X ) = β 0 + β 1 X 的样本回归函数 ˆ ∆Y ˆ ˆ ，表示 X变化一个单位时 Y的变化量 β1 = ∆X ˆ ˆ β 表示X = 0时Y的值
第二讲简单回归模型
Simple Regression Model
一、基本概念二、普通最小二乘法（OLS）普通最小二乘法（）三、几个问题四、OLS估计量的性质估计量的性质
一、基本概念
1. 回归的涵义 2. 一个基本假定 3. 总体回归函数
回归的涵义
o 最初的涵义：回归（regress）一词最早由英国生理学家高最初的涵义：回归（）尔顿（尔顿（Galton）提出，用以指给定父母的身高后，儿女的）提出，用以指给定父母的身高后，身高有回复到人口总体平均身高的趋势，身高有回复到人口总体平均身高的趋势，即“回归到中等 ”（regression to mediocrity）） o 回归分析：在其他条件不变的情况下，考察一个变量对另回归分析：在其他条件不变的情况下，一个变量的影响。一个变量的影响。

第二章简单线性回归模型

Y 的条件均值
E (Y X i )
55
75
95
115
135
155
175
195
215
235
之间的对应关系是：家庭可支配收入 X 与平均消费支出 E ( Y X i ) 之间的对应关系是：
E ( Y X i ) = 15 + 2 X 3
i
的条件期望表示为解释变量的某种函数称为总体函数。这种把总体应变量 Y 的条件期望表示为解释变量的某种函数称为总体函数。简记 PRF。为 PRF。
（三）回归与相关的联系与区别
两者的区别在于：用途不同—— ——相关分析是用相关系数去度量变量之间线性（1）用途不同——相关分析是用相关系数去度量变量之间线性关联的程度，而回归分析却要根据解释变量的确定值，关联的程度，而回归分析却要根据解释变量的确定值，去估计和预测被解释变量的平均值；被解释变量的平均值；变量性质不同—— ——相关分析中把相互联系的变量都作为随（2）变量性质不同——相关分析中把相互联系的变量都作为随机变量，机变量，而在回归分析中，而在回归分析中，假定解释变量在重复抽样中具有固定数值，假定解释变量在重复抽样中具有固定数值，是非随机的，被解释变量才是随机变量。是非随机的，被解释变量才是随机变量。对变量的因果关系处理不同—— ——回归分析是在变量因果关（3）对变量的因果关系处理不同——回归分析是在变量因果关系确定的基础上研究解释变量对被解释变量的具体影响，对变量的处系确定的基础上研究解释变量对被解释变量的具体影响，理是不对称的，而在相关分析中，把相互联系的变量都作为随机变量，理是不对称的，而在相关分析中，把相互联系的变量都作为随机变量，是对称的。是对称的。

第二章-简单线性回归模型

1600 X
2000
2400
非线性相关：
Y
80 70 60 50 40 30 20 10
0 0
400
800
X
1200
非线性相关：
Y
80 70 60 50 40 30 20 10
0 0
400
800
X
1200
非线性相关的模拟数据：
•• • • • • • • •• • •
正相关：两个量变化的方向相同
二、总体回归模型
假设 X 为一个经济变量，Y 为另一个经济变量，且变量 X 与 Y 之间存在着非确定性的因果关系，即当 X 变化时会引起 Y 的变化，但这种变化是随机的。例如，某种饮料的销售量与气温的关系，销售量受气温的影响而变化，但其变化又不能由气温惟一确定；再比如，家庭的周消费额与周收入之间的关系等等。
-800
-1200
-1600
0
4
8
12
16
X
高度正相关：
YY
1600
1200
r 0.99965
800
400
0
0
4
8
12
16
X
高度负相关：
Z
0
-400
r 0.99965
-800
-1200
-1600
0
4
8
12
16
X
（三）回归分析
“回归（Regression）”一词最早出现在生物学的遗传现象研究中，用来指子辈身高相对于父辈身高趋向其平均水平的倾向。现在这一术语广泛地用来指随机因果关系中变量之间的统计规律。回归分析方法是计量经济学的基础。

第2章简单回归模型

将总体矩条件应用于样本 • 从总体中随机抽取一个样本容量为n的随机样本，用{(xi,yi): i=1, „,n} ，i表示单个样本（observation）的编号，n是样本总量。xi,yi表示第i个样本的相应的变量。 • 每一观测样本i均应满足： yi = b0 + b1xi + ui • 将前面所假定的总体矩条件(3)(4)应用于样本中，这种方法称为矩估计法（method of moments）.

一个重要问题

如果我们忽略包含于误差项u中的其他因素，能否通过简单回归模型，得到x对于y的其他因素不变情况下的影响（ceteris paribus effect of x on y）呢？不能。需要对u和x的关系作出假定，或者是说，假定x与 y的关系符合一定的条件，才能通过上述模型估计 x对于y的其他因素不变情况下的影响(ceteris paribus effect of x on y)。
选择参数值b0, b1, 使得样本的矩条件成立
• 与总体中的矩条件(3)(4)相对应，在样本中相应的矩条件(sample counterparts)为：
(3' ) ( 4' ) n
1
y
n i 1 n i 1 i
i
ˆ b ˆ x 0 b 0 1 i
i

n
1
x y
ˆ b ˆ x 0 b 0 1 i
普通最小二乘法的推导
(a ) (b) (c) (d )

x y y bˆ x bˆ x 0
n i 1 n i i 1 1 i
x ( y
i 1 n i
i
ˆ (x x) 0 y) b 1 i

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ˆ y ˆx 0 1
n
二、普通最小二乘法的推导
另一种方法定义y在x=xi时的拟合值为
ˆ i ˆ 0 ˆ 1 x i y
（2.17）
ˆ 1

( x i x )( y i y )
n
i 1

( xi x )2
（2.19）
第i次观测的残差为
ˆ ˆx ˆi yi y ˆ i yi u 0 1 i
江西财经大学（彭Leabharlann 宏） 2一、简单回归模型的定义
y = 0 + 1x + u y：因变量；x：自变量
一、简单回归模型的定义
假定
E(u)=0 E(u|x)=E(u) (2.5) (2.6)
（2.1)
0：截距参数；1 ：斜率参数
u：误差项 u表示除x之外其他影响y的因素，可以把u看作是“观测不到”的因素。（解决了问题① ） 1度量了其他因素不变的情况下(Δu=0) ，x对y的线性影响(Δy=1Δx) 。（解决了问题②和半个问题③，1 如何确定？）
.} û3
E ( y | x) 0 1 x
• 总体回归函数是固定而又未知的，给定一个样本就能通过OLS得到一个样本回归函数。 • 例2.3、2.4、2.5
江西财经大学（彭树宏） 13
y1
.} û1
x1
江西财经大学（彭树宏）
x2
x3
x4
x
14
三、OLS的操作技巧
OLS统计量的代数性质
i1
③ 点
( x, y )
总在OLS回归线上（由（2.16）式得）
江西财经大学（彭树宏） 15 江西财经大学（彭树宏） 16
三、OLS的操作技巧
• y的总变异总能表示成解释了的变异和未解释的变异之和：
yi
四、度量单位和函数形式改变度量单位对OLS统计量的影响 • 若因变量乘以一个常数c（自变量没有变化），则OLS截距和斜率的估计值都扩大为原来的c倍。 • 若自变量乘以一个常数c （因变量没有变化），则OLS斜率系数将被除以c，而截距系数则没有变化。
二、普通最小二乘法的推导
• 例子：15个家庭的年收入和年储蓄数据
江西财经大学（彭树宏） 7 江西财经大学（彭树宏） 8
二、普通最小二乘法的推导
零条件均值假定意味着，在总体中，u与x 不相关，即x和u之间的协方差为零。我们有：
E(u)=0 (2.10) Cov(x,u)=E(xu)-E(x) •E(u)=0 (2.11)
四、度量单位和函数形式
江西财经大学（彭树宏）
19
江西财经大学（彭树宏）
20
四、度量单位和函数形式
“线性”回归的含义：“线性”是指对参数线性而非对变量线性。 • 线性回归 • 非线性回归
五、OLS估计量的期望值和方差
OLS的无偏性
江西财经大学（彭树宏）
21
江西财经大学（彭树宏）
22
五、OLS估计量的期望值和方差
ˆ / se ˆ1

x
i
x
2

1
2
江西财经大学（彭树宏）
29
5
ˆ 和 ˆ 最小化残差平方和选择 1 0
ˆ ˆ y u
2 i i i 1 i 1 n n 0
i 1
计算（2.17）和（2.19）仅需的假定是样本中的xi 不完全相等（（2.19）的分母不为零）。（2.19）式的分子、分母同除以n-1即为x和y的样本协方差和x的样本方差。 11 江西财经大学（彭树宏）
4
五、OLS估计量的期望值和方差
• 用y的条件均值和条件方差表示零条件均值假定和同方差假定有：
五、OLS估计量的期望值和方差
• 当假定 SLR.5不满足时，便称误差项表现出异方差性。（例 2.13）
江西财经大学（彭树宏）
25
江西财经大学（彭树宏）
26
五、OLS估计量的期望值和方差
• 有了同方差假定，便可以证明如下定理：
n n
三、OLS的操作技巧
拟合优度 • 定义总平方和(SST)、解释平方(SSE)和残差平方和(SSR)为：
① OLS残差和及其样本均值都为零（由（2.14）式得）
0 n 回归元和OLS残差的样本协方差为零（由（2.15）式 n 得）
i i 1
uˆ
uˆ
0,
i 1
i
②

ˆi 0 x iu
• 方法：从总体中抽取一个样本来对总体参数进行估计
抽取总体估计
江西财经大学（彭树宏） 5 江西财经大学（彭树宏） 6
样本
1
二、普通最小二乘法的推导
• 令{(xi,yi): i=1, …,n}表示从总体中抽取的一个容量为n的随机样本，对每个i都有：
yi = 0 + 1xi + ui (2.9) ui包括除xi之外所有影响yi的因素，它是第i 次观测的误差项。
第2章简单回归模型
一．简单回归模型的定义二．普通最小二乘法的推导三．OLS的操作技巧四．度量单位和函数形式五．OLS估计量的期望值和方差六．过原点回归
江西财经大学（彭树宏） 1
一、简单回归模型的定义
• y和x是两个代表某个总体的变量，研究y如何随x 而变化？ • 例：y是大豆产出，x是施肥量；y是小时工资，x 是受教育年数；y是社区的犯罪率，x是警察的数量。 • 写出用x解释y的模型时面临的问题：①应该如何考虑其他影响y的因素？②y和x的函数关系是怎样？③何以确定在其他条件不变的情况下刻画了y 和x之间的关系？
二、普通最小二乘法的推导
• E(y – 0 – 1x) = 0 （2.12） • E[x(y – 0 – 1x)] = 0 （2.13） • （2.12）和（2.13）的样本对应值为：
n
n
1

i1
y
i
ˆ 0 ˆ 1 x
i

0
由总体回归函数y = 0 + 1x + u ，得
五、OLS估计量的期望值和方差
误差方差的估计 • 误差和方差的区别：误差出现在包含总体参数 0 ˆ 和 ˆ 的方程和 1 的方程中，残差出现在使用 1 0 中；误差无法观测，但残差却可以从数据中计算出来。 yi 0 1 xi ui
ˆ ˆ x u ˆi yi 0 1 i
五、OLS估计量的期望值和方差
OLS估计量的方差
• 在假定SLR.1~SLR.4下，OLS估计量的方差可以计算出来。增加假定SLR.5，是因为它简化了估计量方差的计算，而且它还意味着，普通最小二乘法具有某种有效性。 • 2 被称为误差方差。
江西财经大学（彭树宏） 23 江西财经大学（彭树宏） 24
17 江西财经大学（彭树宏） 18
• 定义判定系数为： • 数据点都落在同一直线上时，R2=1，OLS提供了数据的一个完美拟合。一个接近零的R2值表明 OLS给出了一个糟糕的拟合。 ˆ i 的样本相关系数的平方。 • R2等于 yi和 y
江西财经大学（彭树宏）
3
四、度量单位和函数形式
在简单回归中加入非线性因素 • 线性模型（例2.3） • 半弹性模型（例2.10） • 弹性模型（例2.11）
ui 为误差，u ˆi 为残差。
江西财经大学（彭树宏）
27
江西财经大学（彭树宏）
28
五、OLS估计量的期望值和方差
• 2的无偏估计量为：
ˆ2
n 2
1
ˆi2 SSR /n 2 u
ˆ ˆ 2 ，被称为回归标准误。 • ˆ 2 代入方差公式（2.57）和（2.58），我 • 将 ˆ ) 的无偏估计量，进 ˆ ) 和 Var ( 们就能得到 Var ( 1 0 ˆ 的标准差的无偏估计量。 ˆ 和而得到 0 1
u=y- 0 - 1x
n
n
1

x i y i ˆ 0 ˆ 1 x i 0

i 1
（2.14 ）（2.15 ）
代入（2.10）和（ 2.11），得江西财经大学（彭树宏）
ˆ 和 ˆ • 由以上两个方程，可解得 0 1
9 江西财经大学（彭树宏） 10
二、普通最小二乘法的推导
ˆx 1 i

2
由最优化一阶条件可得到式（2.17）和（2.19）给出的普通最小二乘估计量。
江西财经大学（彭树宏） 12
2
二、普通最小二乘法的推导
• 样本回归函数 y4
三、OLS的操作技巧
拟合值和残差
û4 {
.
ˆ ˆx ˆ y 0 1
ˆ ˆ x ˆ y 0 1
• 总体回归函数 y3 y2 û2 {.
江西财经大学（彭树宏） 3
结合（2.5）和（2.6），得到
E(u|x)=0
（零条件均值假定）
总体回归函数
E(y|x)= 0 + 1x
江西财经大学（彭树宏）
(2.8)
4
一、简单回归模型的定义
二、普通最小二乘法的推导
• 问题：如何估计总体回归方程
y = 0 + 1x + u (2.1)
中的参数0和1？

第2章 简单回归模型

学习笔记：伍德里奇《计量经济学》第五版-第二章 简单回归模型

庞浩 计量经济学2第二章 简单线性回归模型

第二讲 简单回归模型

庞浩计量经济学第二章简单线性回归模型

第2讲 简单回归模型

第二章 简单线性回归模型

第二章-简单线性回归模型

第2章 简单回归模型

第2章简单回归模型

学习笔记：伍德里奇《计量经济学》第五版-第二章简单回归模型

庞浩计量经济学2第二章简单线性回归模型

第二讲简单回归模型

第2讲简单回归模型

第二章简单线性回归模型

第2章简单回归模型