计量经济学第二章简单线性回归模型案例分析

合集下载

计量经济学计量经济学教学案例

计量经济学教学案例案例一简单线性回归模型一、主题与背景用真实数据进行简单线性回归分析，应用Eviews6.0分析软件进行操作，与课本内容相对应，分析模型的截距、斜率以及可决系数，引导学生熟悉Eviews6.0的基本操作，能够解读分析报告，并尝试进行被解释变量的预测，体会变量测度单位的改变和函数形式变化给OLS 估计结果和统计特征的影响。

二、情景描述对于由CEO 构成的总体，令y 代表年薪(salary)，单位为千美元。

令x 表示某个CEO 所在公司在过去三年的平均股本回报率(roe ，股本回报率定义为净收入占普通股价的百分比)。

为研究该公司业绩指标和CEO 薪水之间的关系，可以定义以下模型：Salary=0β+1βroe + u . 斜率参数1β衡量当股本回报率增长一个单位（一个百分点）时CEO 年薪的变化量，由于更高的股本回报率预示更高的CEO 年薪，所以，1β＞0。

三、教学过程设计（一）数据说明数据集CEOSAL1.RAW 包含1990年209位CEO 的相关信息，该数据来自《商业周刊》(5/6/91)，该样本中CEO 年薪的平均值为$1,281,120，最低值和最高值分别为$223,000和$14,822,000，1988、1989和1990年的平均股本回报率是17.18%。

（二）操作建议1：在 eviews6.0命令输入窗口定义变量：data salary roe2、用 edit+/- 编辑数据3、描述统计分析过程：view---descriptive stats---common sample4、画散点图:Scat roe salary5、在eviews6.0命令输入窗口运行简单线性回归 Ls salary c roe6、用resids 观测残差7、产生新序列:S eries lsalary =log(salary)8、改变函数形式：Ls lsalary c lsales9、改变变量测度单位：Ls salary*1000 c roe四、教学研究（一）案例结论1、回归结果估计出的回归线为：salˆary = 963.191 + 18.501 roe(1)截距和斜率保留了3位小数，回归结果显示，如果股本回报率为0，年薪的预测值为截距963.191千美元,可以把年薪的预测变化看做股本回报率变化的函数：∆salˆary = 18.501 (∆roe)，这意味着当股本回报率增加1个百分点，即∆roe =1,则年薪的预测变化就是18.5千美元,在线性方程中，估计的变化与初始年薪无关。

计量经济学第二章经典线性回归模型

Yt = α + βXt + ut 中 α 和 β 的估计值和
,
使得拟合的直线为“最佳”。
直观上看，也就是要求在X和Y的散点图上
Y
* * Yˆ ˆ ˆX
Yt
* **
Yˆt
et * *
*
*
**
*
**
**
*
Xt
X
图 2.2
残差
拟合的直线 Yˆ ˆ ˆX 称为拟合的回归线.
对于任何数据点 (Xt, Yt), 此直线将Yt 的总值分成两部分。
β
K
βK
β1 β1
...
βK
βK
Var(β 0 )
Cov(β1 ,β
0
)
Cov(β 0 ,β1 )
Var(β1 )
...
Cov(β
0
,β
K
)
...
Cov(β1
,β
K
)
...
...
...
...
Cov(β
K
,β
0
)
Cov(β K ,β1 )
...
Var(β K )
不难看出，这是 β 的方差-协方差矩阵，它是一个(K+1)×(K+1)矩阵，其主对角线上元素为各系数估计量的方差，非主对角线上元素为各系数估计量的协方差。
ut ～ N (0, 2 ) ，t=1,2,…n
二、最小二乘估计
1. 最小二乘原理
为了便于理解最小二乘法的原理，我们用双
变量线性回归模型作出说明。
对于双变量线性回归模型Y = α+βX + u，我们
的任务是，在给定X和Y的一组观测值 (X1 ,

计量经济学作业——简单线性回归模型

计量经济学作业姓名：***班级：08级数学一班学号：***********简单线性回归模型一、建立模型为了研究四川省城镇具名消费支出以及可支配收入之间的关系，又经济理论分析可知，收入是影响居民消费支出的主要因素，居民消费支出Y与可支配收入X之间存在密切的关系，消费支出随着收入的增加而增加，但变动的幅度相比较低，即边际消费倾向MPC有0<MPC<1。

因此可设定居民消费支出Yi与Xi的关系为：Yi=ß1+ß2Xi+ui，其中ß1表示四川省城镇居民家庭平均每人年生活性消费支出（元）；Xi为城镇居民家丁平均没人年可支配收入（元）。

变量采用年度数据，样本期为1978-1998年。

这里的ß1为居民没有收入来源时的最低消费。

二、估计模型中的位置参数假设模型中的随机误差项ui满足古典假定，运用OLS方法估计模型的参数，利用计量经济学计算机软件EViews计算过程如下：简历文档，输入数据首先点击EViews图标，进入EViews主页。

点击File后，在File菜单的New选项中点击Workfile，这时屏幕上出现Workfile Range对话框，在Srart Date里键入1978，在End Date里键入1998，点击OK后屏幕出现Workfile工作框。

在Object菜单栏，点击New Object对话框里选Group并在Name for Object上定义文件名，点击OK，屏幕出现数据编辑框。

也可在光标出直接输入Data Y X，回车后即可出现数据编辑框。

此时可录入数据，首先按上行键，这时对应“obs”字样的空格会自动上跳，在对应第二个“obs”字样，有边框的空格里键入变量名，再按下行键，这时对应变量名下的这一列出现“NA”字样，便可依时间顺序键入相应的数据。

其他变量的数据类似输入。

可以几个变量同时录入数据。

在主页上选Quick菜单，点击Eatimate Equation项，屏幕上出现估计对话框（Equation Spacification），在Easmation Setting中选OLS估计，即Least Squares，键入Y C X或Y X C（C为EViews固定的截距系数）。

计量经济学第二章一元线性回归模型范文

第二章一元线性回归模型2.1 一元线性回归模型的基本假定2.1.1一元线性回归模型有一元线性回归模型（统计模型）如下， y t = β0 + β1 x t + u t上式表示变量y t 和x t 之间的真实关系。

其中y t 称被解释变量（因变量），x t 称解释变量（自变量），u t 称随机误差项，β0称常数项，β1称回归系数（通常未知）。

上模型可以分为两部分。

（1）回归函数部分，E(y t ) = β0 + β1 x t ,（2）随机部分，u t 。

图2.1 真实的回归直线这种模型可以赋予各种实际意义，居民收入与支出的关系；商品价格与供给量的关系；企业产量与库存的关系；身高与体重的关系等。

以收入与支出的关系为例。

假设固定对一个家庭进行观察，随着收入水平的不同，与支出呈线性函数关系。

但实际上数据来自各个家庭，来自同一收入水平的家庭，受其他条件的影响，如家庭子女的多少、消费习惯等等，其出也不尽相同。

所以由数据得到的散点图不在一条直线上（不呈函数关系），而是散在直线周围，服从统计关系。

“线性”一词在这里有两重含义。

它一方面指被解释变量Y 与解释变量X 之间为线性关系，即1tty x β∂=∂220tt y x β∂=∂另一方面也指被解释变量与参数0β、1β之间的线性关系，即。

1ty x β∂=∂，221ty β∂=∂0 ，1ty β∂=∂，2200ty β∂=∂2.1.2 随机误差项的性质随机误差项u t 中可能包括家庭人口数不同，消费习惯不同，不同地域的消费指数不同，不同家庭的外来收入不同等因素。

所以在经济问题上“控制其他因素不变”是不可能的。

随机误差项u t 正是计量模型与其它模型的区别所在，也是其优势所在，今后咱们的很多内容，都是围绕随机误差项u t 进行了。

回归模型的随机误差项中一般包括如下几项内容：（1）非重要解释变量的省略，（2）数学模型形式欠妥，（3）测量误差等，（4）随机误差（自然灾害、经济危机、人的偶然行为等）。

庞浩计量经济学2第二章简单线性回归模型

17
三、总体回归函数
总体回归函数（population regression function，简称PRF）：将总体被解释变量Y的条件均值表现为解释变量X的函数。
E (Y | X i ) f ( X i )
当总体回归函数是线性形式时，
总体回归函数的条件期望表示方式
E (Y | X i ) f ( X i ) 1 2 X i
22
四、随机扰动项u
（一）定义各个被解释变量的个别值与相应的条件均值的偏差，被称为随机扰动项，或随机干扰项（stochastic disturbance），或随机误差项（stochastic error），用u表示。它可正可负，是一个随机变量。
ui Yi E (Y | X i ) Yi E (Y | X i ) ui Yi 1 2 X i ui
消费支出 Y
932
1259 1448 1651 2298 2289 2365 2488 2856 3150
25
Y
SRF1 SRF2
X
26
样本一
Y vs. X 3500 3000 2500 2000 1500 1000 500 0 1000 2000 3000 4000 5000 6000 X 3500 3000 2500 2000 1500 1000 500 0
4
（二）相关关系的种类
⒈按涉及变量的多少分为单相关多重（复）相关
相关关系的种类
⒉按表现形式的不同分为
线性相关
非线性相关正相关负相关完全相关
⒊单相关时，按相关关系的方向不同分为
4.按相关程度的不同分为
Hale Waihona Puke 不完全相关不相关5

庞浩计量经济学第二章简单线性回归模型

最小二乘法的应用
在统计学和计量经济学中，最小二乘法广泛应用于估计线性回归模型，以探索解释变量与被解释变量之间的关系。
通过最小二乘法，可以估计出解释变量的系数，从而了解各解释变量对被解释变量的影响程度。
最小二乘法还可以用于时间序列分析、预测和数据拟合等场景。
最小二乘法的局限性
最小二乘法假设误差项是独立同分布的，且服从正态分布，这在实际应用中可能不成立。
最小二乘法无法处理多重共线性问题，当解释变量之间存在高度相关关系时，最小二乘法的估计结果可能不准确。
最小二乘法对异常值比较敏感，异常值的存在可能导致参数估计的不稳定。
04
模型的评估与选择
R-squared
总结词
衡量模型拟合优度的指标
详细描述
R-squared，也称为确定系数，用于衡量模型对数据的拟合程度。它的值在0到1之间，越接近1表示模型拟合越好。R-squared的计算公式为(SSreg/SStot)=(y-ybar)2 / (y-ybar)2 + (y-ybar)2，其中SSreg是回归平方和， SStot是总平方和，y是因变量，ybar是因变量的均值。
数据来源
本案例的数据来源于某大型电商平台的销售数据，包括商品的销售量、价格、评价等。
数据处理
对原始数据进行清洗和预处理，包括处理缺失值、异常值和重复值，对分类变量进行编码，对连续变量进行必要的缩放和转换。
模型建立与评估
模型建立
基于处理后的数据，使用简单线性回归模型进行建模，以商品销售量作为因变量，价格和评价作为自变量。
线性回归模型是一种数学模型，用于描述因变量与一个或多个自变量之间的线性关系。它通常表示为：Y = β0 + β1X1 + β2X2 + ... + ε

计量经济学第二章一元线性回归模型(1)(肖)

10
2．在经济学中，经济学家要研究个人
消费支出与个人可支配收入的依赖关系。
这种分析有助于估计边际消费倾向，就是
可支配收入每增加一元引起消费支出的平
均变化。
11
3．在企业中，我们很想知道人们对企
业产品的需求与广告费开支的关系。这种
研究有助于估计出相对于广告费支出的需
求弹性，即广告费支出每变化百分之一的
（2.3）
想想：结合表2.1的资料，怎样理解式（2.3）
变量Y 的原因，给定变量X 的值也不能具
体确定变量Y的值，而只能确定变量Y 的
统计特征，通常称变量X 与Y 之间的这种
关系为统计关系。
16
例如，企业总产出Y 与企业的资本投入
K 、劳动力投入L 之间的关系就是统计关系。虽然资本K 和劳动力L 是影响产出Y 的两大核心要素，但是给定K 、L 的值并不能确定产出Y 的值。因为，总产出Y 除了受资本投入K、劳动力投入L 的影响外

在进入正式的回归理论之前，先斟酌一下变量y与变量x可以互换的不同名称、术语。 Y 因变量 X 自变量
被解释变量响应变量
被预测变量
解释变量控制变量
预测变量
回归子
归回元
22
第二节
一、引例
一元线性回归模型
假定我们要研究一个局部区域的居民消费问题，该区域共有80户家庭组成，将这80户家庭视为一个统计总体。
32
函数f (Xi)采取什么函数形式，是一个
需要解决的重要问题。在实际经济系统
中，我们不会得到总体的全部数据，因
而就无法据已知数据确定总体回归函数的函数形式。同时，对总体回归函数的形式只能据经济理论与经验去推断。

第二章经典单方程计量经济模型：一元线性回归模型

二、总体回归函数
例2.1：一个假想的社区由100户家庭组成，要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。
即如果知道了家庭的月收入，能否预测社区该类家庭的平均月消费支出水平？
为达此目的，将该100户家庭依据每月可支配收入划分为10组，以分析每一收入组的家庭消费支出。
每月家庭消费支出 Y （元）
单方程计量经济学模型理论与方法
Theory and Methodology of SingleEquation Econometric Model
第二章经典单方程计量经济学模型：一元线性回归模型
• 回归分析概述 • 一元线性回归模型的参数估计 • 一元线性回归模型检验 • 一元线性回归模型预测 • 实例
为了得到良好的估计量需要哪些条件？
2、无偏性，即估计量ˆ0 、 ˆ1 的均值（期望）等于总体回归
参数真值0 与1
证： ˆ1 kiYi ki (0 1 X i i ) 0 ki 1 ki X i ki i
易知故
ki
xi 0 xi2
ki Xi 1
ˆ1 1 ki i
2、回归分析的基本概念
回归分析是研究一个变量关于另一个（些）变量的统计依赖关系(因果关系X)的计算方法和理论。
其用意：在于通过后者的已知或设定值，去估计前者的总体均值。
回归分析主要内容包括：（1）根据样本观察值对经济计量模型参数进行估计，求得回归方程；
（2）对回归方程、参数估计值进行显著性检验；（3）利用回归方程进行分析、评价及预测。
一、参数的普通最小二乘估计（OLS）
给定一组样本观测值（Xi, Yi）（i=1,2,…n）要求样本回归函数尽可能好地拟合这组值.

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

重庆
四川贵州云南西藏陕西甘肃青海宁夏新疆
76.07
68.86 63.89 63.55 58.83 82.43 56.14 52.65 59.39 61.2
21794.27
19688.09 17598.87 20255.13 18115.76 20069.87 16267.37 17794.98 19654.59 17631.15
ˆ ) 11.9826 t (29) 2.045 t( 2 0.025
应拒绝 H0 : 2 0
3. 用P值检验 α = 0.05 >> p=0.0000
表明，城镇居民人均总收入对城镇居民每百户计算机拥有量确有显著影响。
8
4. 经济意义检验：
所估计的参数
,说明城镇
居民家庭人均总收入每增加1元，平均说来城镇居
( X f X )2 (25000 22666.97) 2 5443028.981
2 2 2 x ( X X ) i i X ( n 1)
6112.9652 (31 1) 1121050233
X f 25000时
1 5443028.981 83.7846 m 2.045 8.027957 83.7846 m 3.1627 31 1121050233
即是说：当地区城镇居民人均总收入达到25000元时，城镇居民每百户计算机拥有量平均值置信度95%的预测区间为（80.6219，86.9473）台。 11
个别值区间预测:
X F 25000时 :
1 ˆ ˆ Y f Y f t 2 1 n
( X f X )2
2 x i
(台)
区间预测:
平均值区间 Y f = Y f tα 2 σ + 2 n x i
t0.025 (29) = 2.045
Yf 83.7846
ˆ 8.027957
n = 31
10
平均值区间预测区间预测
由X和Y的描述统计结果
X 22666.97
地区
2011年底城镇居民家庭平均每百户计算机拥有量 (台)Y
城镇居民平均每人全年家庭总收入（元）X
河南湖北湖南广东广西海南
71.41 75.49 66.36 104.13 91.72 63.82
19526.92 20193.27 20083.87 30218.76 20846.11 20094.18
据。
2011年中国各地区城镇居民每百户计算机拥有量和人均总收入
地区北京天津河北山西内蒙古辽宁吉林黑龙江上海江苏浙江安徽福建江西山东 2011年底城镇居民家庭平均每百户计算机拥有量 (台)Y 103.51 95.4 74.74 69.45 60.83 71.66 68.04 55.36 137.7 96.94 103.17 74.04 103 73.87 85.88 城镇居民平均每人全年家庭总收入（元）X 37124.39 29916.04 19591.91 19666.1 21890.19 22879.77 19211.71 17118.49 40532.29 28971.98 34264.38 20751.11 27378.11 18656.52 24889.8
模型设定:
为了初步分析城镇居民家庭平均每百户计算机拥有量 (Y)与城镇居民平均每人全年家庭总收入(X)的关系，作以X为横坐标，以Y为纵坐标的散点图。
从散点图可以看出城镇居民家庭平均每百户计算机拥有量(Y)与城镇居民平均每人全年家庭总收
入(X) 大体呈现线性关系。
可以建立如下简单线性回归模型：
第八节案例分析
案例:分析各地区城镇居民计算机拥有量与城镇居民收入水平的关系
提出问题：随着信息化程度和居民收入水平的提高，作为居民耐用消费品重要代表的计算机已为众多城镇居民家庭所拥有。研究中国各地区城镇居民计算机拥有量与居民收入水平的数量关系，对于探寻居民消费增长的规律性，分析各地区居民消费的差异，预测地区全体居民消费水平和结构的发展趋势，合理规划信息产业的发展，都有重要的意义。理论分析：影响居民计算机拥有量的因素有多种，但从理论和经验分析，最主要的影响因素应是居民收入水平。
R 2 0.8320
F=143.5836 n=31
7 7
模型检验
1. 可决系数： R 2 0.8320
模型整体上拟合较好。
2. 系数显著性检验：取 α = 0.05 ，查t分布表得自由度
为 n 2 31 2 29 的临界值为 t0.025 (29) 2.045 。
ˆ ) 2.1267 t (29) 2.045 应拒绝 H : 0 因为 t( 0 1 1 0.025
从理论上说居民收入水平越高，居民计算机拥有量越多。1
变量选择：被解释变量选择能代表城乡所有居民消费的 “城镇居民家庭平均每百户计算机拥有量”(单位:台) ；解释变量选择表现城镇居民收入水平的“城镇居民平均每人全年家庭总收入”（单位:元）研究范围：全国各省市2011年底的城镇居民家庭平均每
百户计算机拥有量和城镇居民平均每人全年家庭总收入数
量；OLS 估计量的分布性质及期望、方差和标准误差； OLS估计式是最佳线性无偏估计量。
14
7、简单线性回归模型极大似然估计的思想和方法。
8、对回归系数区间估计的思想和方法。 9、拟合优度是样本回归线对样本观测数据拟合的优劣程度，可决系数是在总变差分解基础上确定的。可决系数的计算方法、特点与作用。 10、对回归系数假设检验的基本思想。对回归系数t 检验的思想与方法；用P值判断参数的显著性。
12 12
本章小结
1、变量间的关系分为函数关系与相关关系。
相关系数是对变量间线性相关程度的度量。 2、现代意义的回归是一个被解释变量对若干个解释变量依存关系的研究，回归的实质是由解释变量去估计被解释变量的平均值。 3、总体回归函数（PRF）是将总体被解释变量Y的条件均值表现为解释变量X的某种函数。样本回归函数（SRF）是将被解释变量Y的样本条件均值表示为解释变量X的某种函数。总体回归函数与样本回归函数的区别与联系。
13
4、随机扰动项是被解释变量实际值与条件均值的偏差，
代表排除在模型以外的所有因素对Y的影响。
5、简单线性回归的基本假定：对模型和变量的假定、对随机扰动项u的假定（零均值假定、同方差假定、无自相关假定、随机扰动与解释变量不相关假定、正态性假定）
6、普通最小二乘法（OLS）估计参数的基本思想及估计
1 5443028.981 83.7846 m 2.045 8.027957 1 83.7846 m16.7190 31 1121050233
即是说：当地区城镇居民人均总收入达到25000元时，城镇居民每百户计算机拥有量个别值置信度95%的预测区间为（67.0656，100.5036）台。
15
11、被解释变量平均值预测与个别值预测的关系，被解
释变量平均值的点预测和区间预测的方法，被解释变量个别值区间预测的方法。 12、运用EViews软件实现对简单线性回归模型的估计和检验。
16
第二章结束了！
17
民每百户计算机拥有量将增加0.002873台，这与
预期的经济意义相符。
9
经济预测
点预测：如果西部地区某省城镇居民家庭人均总收入能达到 25000元/人，利用所估计的模型可预测城镇居民每百户计算机拥有量，点预测值为
ˆ 11.9580 0.002873 25000 83.7846 Y f
Yt 1 2 X t ut
5
估计参数
假定模型中随机扰动满足基本假定，可用OLS法。具体操作：使用EViews 软件，估计结果是：
6
用规范的形式将参数估计和检验的结果写为： ˆ 11.9580 0.002873X Y
t t
（5.6228） (0.00024) t= (2.1267) (11.9826)