第2章 线性回归分析

合集下载

一元线性回归分析

一元线性回归分析

C=α+βy + µ
其中, µ是随机误差项。 是随机误差项。 其中, 是随机误差项 根据该方程, 的值, 根据该方程,每给定一个收入 y 的值,消 并不是唯一确定的, 费C并不是唯一确定的,而是有许多值, 并不是唯一确定的 而是有许多值, 他们的概率分布与µ的概率分布相同 的概率分布相同。 他们的概率分布与 的概率分布相同。 线性回归模型的特征: 线性回归模型的特征: 有随机误差项! 有随机误差项!
21


一、严格地说,只有通过了线性关系的检验,才 严格地说,只有通过了线性关系的检验, 能进行回归参数显著性的检验。 能进行回归参数显著性的检验。 有些教科书在介绍回归参数的检验时没有考虑线 性关系的检验,这是不正确的。 性关系的检验,这是不正确的。因为当变量之间 的关系没有通过线性检验时, 的关系没有通过线性检验时,进行回归参数显著 性的检验是没有意义的。 性的检验是没有意义的。 在一元线性回归分析中, 二、在一元线性回归分析中,即只有一个解释变 量时,这两种检验是统一的。 量时,这两种检验是统一的。但在多元回归分析 这两种检验的意义是不同的。 中,这两种检验的意义是不同的。 为了说明该问题, 为了说明该问题,我们在本章中依然把两种检验 分开论述。 分开论述。
13
为了达到上述目的, 为了达到上述目的,我们直观上会采 用以下准则: 用以下准则: 选择这样的SRF,使得: 选择这样的 ,使得:
残差和∑ ε i = ∑ ( yi − yi )尽可能小! ˆ
但这个直观上的准则是否是一个很好 的准则呢?我们通过以下图示说明: 的准则呢?我们通过以下图示说明:
14
12
ˆx i + ε i yi = α + β ˆ ˆ 即:y i = y i + ε i ˆ ∴ ε i = yi − yi

第二章简单线性回归模型

第二章简单线性回归模型
2586
4000
2037 2210 2325 2419 2522 2665 2799 2887 2913 3038 3167 3310 3510
2754
4500
2277 2388 2526 2681 2887 3050 3189 3353 3534 3710 3834
3039
5000 5500
2469 2924 2889 3338 3090 3650 3156 3802 3300 4087 3321 4298 3654 4312 3842 4413 4074 4165
Yi 与 E(Yi Xi )不应有偏差。若偏
差u i 存在,说明还有其他影响因素。
Xi
X
u i实际代表了排除在模型以外的所有因素对 Y 的影
响。 u i
◆性质 是其期望为 0 有一定分布的随机变量
重要性:随机扰动项的性质决定着计量经济分析结19
果的性质和计量经济方法的选择
引入随机扰动项 u i 的原因
特点:
●总体相关系数只反映总体两个变量 X 和 Y 的线性相关程度 ●对于特定的总体来说,X 和 Y 的数值是既定的,总体相关系
数 是客观存在的特定数值。
●总体的两个变量 X 和 Y的全部数值通常不可能直接观测,所
以总体相关系数一般是未知的。
7
X和Y的样本线性相关系数:
如果只知道 X 和 Y 的样本观测值,则X和Y的样本线性
计量经济学
第二章 一元线性回归模型
1
未来我国旅游需求将快速增长,根据中国政府所制定的 远景目标,到2020年,中国入境旅游人数将达到2.1亿人 次;国际旅游外汇收入580亿美元,国内旅游收入2500亿 美元。到2020年,中国旅游业总收入将超过3000亿美元, 相当于国内生产总值的8%至11%。

计量经济学第2章 一元线性回归模型

计量经济学第2章 一元线性回归模型

15
~ ~ • 因为 2是β2的线性无偏估计,因此根据线性性, 2 ~ 可以写成下列形式: 2 CiYi
• 其中αi是线性组合的系数,为确定性的数值。则有
E ( 2 ) E[ Ci ( 1 2 X i ui )]
E[ 1 Ci 2 Ci X i Ci ui ]
6
ˆ ˆ X )2 ] ˆ , ˆ ) [ (Yi Q( 1 2 i 1 2 ˆ ˆ X 2 Yi 1 2 i ˆ ˆ 1 1 2 ˆ ˆ ˆ ˆ [ ( Y X ) ] 1 2 i Q( 1 , 2 ) i ˆ ˆ X X 2 Yi 1 2 i i ˆ ˆ 2 2
16
~
i
i
• 因此 ~ 2 CiYi 1 Ci 2 Ci X i Ci ui 2 Ci ui
• 再计算方差Var( ) 2 ,得 ~ ~ ~ 2 ~ Var ( 2 ) E[ 2 E ( 2 )] E ( 2 2 ) 2
C E (ui )
2 i 2 i
i
~
i
i
i
i
E ( 2 Ci ui 2 ) 2 E ( Ci ui ) 2
i
2 u
C
i
2 i
i
~ ˆ)的大小,可以对上述表达式做一 • 为了比较Var( ) 和 Var( 2 2
些处理: ~ 2 2 2 2 Var ( 2 ) u C ( C b b ) i u i i i
8
• 2.几个常用的结果
• (1) • (2) • (3) • (4)

第二章 经典线性回归模型

第二章 经典线性回归模型

它表明,对于n个时期t =1,2,…,n,该模型成立。
6
更一般的形式为:
Yi xi ui
i 1,2,...,n
(2.4)
即模型对X和Y的n对观测值(i=1,2,…,n)成立。 (2.3)式一般用于观测值为时间序列的情形,在横 截面数据的情形,通常采用(2.4) 式。
7
例2.1 城镇居民家庭人均消费方程 根据凯恩斯的绝对收入消费理论,在其它 条件不变的情况下,消费与可支配收入同方向变 动,即消费曲线的斜率为正。根据中国2006年31 个省市的城镇居民家庭平均每人全年可支配收入 income(单位:元)和城镇居民家庭平均每人全年 消费性支出consume的数据(单位:元),画出散 点图如下:
(6)各解释变量之间不存在严格的线性关系。
上述假设条件可用矩阵表示为以下四个条件:
18
A1. E(u)=0 A2. E (uu) 2 I n
由于
u1 u2 uu u1 u2 ... u n
2
u12 u1u2 ...... u1un 2 u2u1 u2 ...... u2un ... un ................................. 2 unu1 unu2 ...... un
8
15,000 14,000 13,000 12,000
CONSUME
11,000 10,000 9,000 8,000 7,000 6,000 8,000
12,000
16,000 INCOME
20,000
24,000
从图中看出,两变量之间呈线性关系,可建立城镇居 民家庭人均消费方程如下:
C o n su m e * In c o m e u

高级计量经济学 第二章 多元线性回归模型

高级计量经济学  第二章 多元线性回归模型
e是理论模型的随机挠动项 u是估计模型的残差项
用方程形式,残差平方和可以表示为
E S S u i 2 Y i Y ˆ i2 Y i ˆ 0 ˆjX ij2
最小二乘法估计
(多元回归模型)
以包括两个解释变量的模型为例,对未知参数求一阶导数 得到:
如y果ˆ使xˆ12 , …x1,或 xk保持ˆ不1变 ,xyˆ1那么有
即每个估计的都反映出当其他因素不变时,该因
素产生的边际影响效果。
多元回归的拟合优度
多元回归方程的拟合优度同样可以用R2表示
R2RSS
TSS
Y Y ˆii Y Y2 21
同样的方法可以用于检验有关多个估计参数之间 关系的联合假设。
用下标R和UR区分有约束和无约束的回归方程R2 ,q为约束条件的个数,相应的F统计值计算公式 为:
对拟合优度的统计检验
检验拟合优度的虚假设是所有解释变量均不是真 正的解释变量,即:
H 0 : 12 .. .k 0
备择假设为至少有一个解释变量的参数不等于零 。相应的统计量为:
F k 1 ,N kE RSS K N S S 1 K 1 R R 22N K K 1
需要注意的是,在计量经济学中,“线性”指的是估计参数可以表达为 样本观察值和误差项的线性函数,并不要求回归方程中变量之间的关 系为线性的。
例:CD函数 Ye0X1 1X2 2eu
对该函数两边取对数得到:LnY=0+1LnX1+2LnX2+u
即比:较:YY *= 0e+0X 1X1 11 *X +2 2 2X 2*u +u
不同数学函数的性质

医用数据挖掘案例与实践 第2章 多元线性回归分析

医用数据挖掘案例与实践 第2章 多元线性回归分析
11
在实际应用中,自变量之间可能会存在多重共线性,从而影 响多元线性回归的结果。为此,可以选择对自变量进行筛选 实施多元逐步线性回归,即从多个自变量中找出对因变量真 正有影响的自变量。筛选的方法有前进法(Forward)、后退 法(Backward)和逐步法(Stepwise)等。
12
仍然选用上面的例子,作多元逐步线性回归分析。这里选择逐步筛选法 (Stepwise),如果选择前进法,可以选择“Forward”,如果选择后退法,可 以选择“Backward”。 点开【Option...】按钮,默认筛选变量时入选标准“Entry”为“0.05”,剔除 标准“Removal”为“0.1”。具体操作如见图2.5所示。
图2.5 多元逐步线性回归分析中筛选变量的主对话框和Options子对话框
13
主要输出结果如图2.6~图2.9所示
Model Sum m ary
Model 1
2
R
R Square
.610a
.372
.696b
.484
A djuste d R Square
.347
.441
Std. Error of the Estimate
第二章 多元线性回归分析
1
在医学研究中,常常需要分析变量之间的关系。 比如人的体重与身高和胸围的关系;血压值与年龄、 性别、饮食习惯、吸烟状况和家族史的关系;血糖 水平与年龄、胰岛素、体重指数的关系;肿瘤预后 与患者的肿瘤亚型、肿瘤大小、治疗方式的关系等 等。
此时应采用回归分析的方法来研究变量之间的依存 关系,并对各个因素做出评价,也可用于预测和判 别。
14
如图2.7所示的输出表是对回归模型作的方差分析,同样分为两步,第一步

02一元线性回归模型


xi xi2 Yi

o
Wi Yi

1
n

X
xi
xi 2

Yi
证: βˆ1
xi yi xi2
xi (Yi Y ) xi2
xiYi Y xi
xi2
xi2
令ki

xi
xi2
,因xi

(Xi

X)

0 ,故有

使偏导数为零
(
e2 i
)
o

2(Yi



o



1 Xi)

0
(
e2 i
)
1


2(Yi



o


1 Xi) Xi
0
得正规方程
Yi = nβo + β 1 Xi XiYi = β o Xi + β 1 Xi2
解得

1
X iYi nXY
14
800
1000
1200
1400
1600
x
y
Fitted values
OLS估计结果:Yˆi 10.7662 0.0051X i (第2版教材第17页)
(第3版教材第15页)
2.3 最小二乘估计量的统计性质
一、线性性
线性特性是指估计式 β^o 和 β 1^是Yi 的线性函数。

1 Ki Yi
如此以来,高的越来越高,矮的越来越矮。他 百思不得其解,同时又发现某人种的平均身高 是相当稳定的。最后得到结论:儿子们的身高 回复于全体男子的平均身高,即“回归”—— 见1889年F.Gallton的论文《普用回归定律》。

计量经济学第二章 一元线性回归模型(1)(肖)


10
2.在经济学中,经济学家要研究个人
消费支出与个人可支配收入的依赖关系。
这种分析有助于估计边际消费倾向,就是
可支配收入每增加一元引起消费支出的平
均变化。
11
3.在企业中,我们很想知道人们对企
业产品的需求与广告费开支的关系。这种
研究有助于估计出相对于广告费支出的需
求弹性,即广告费支出每变化百分之一的
(2.3)
想想:结合表2.1的资料 ,怎样理解式(2.3)
变量Y 的原因, 给定变量X 的值也不能具
体确定变量Y的值, 而只能确定变量Y 的
统计特征,通常称变量X 与Y 之间的这种
关系为统计关系。
16
例如,企业总产出Y 与企业的资本投入
K 、劳动力投入L 之间的关系就是统计关 系。虽然资本K 和劳动力L 是影响产出Y 的两大核心要素,但是给定K 、L 的值并 不能确定产出Y 的值。因为,总产出Y 除 了受资本投入K、劳动力投入L 的影响外

在进入正式的回归理论之前,先斟酌一下变量y与变 量x可以互换的不同名称、术语。 Y 因变量 X 自变量
被解释变量 响应变量
被预测变量
解释变量 控制变量
预测变量
回归子
归回元
22
第二节
一、引例
一元线性回归模型
假定我们要研究一个局部区域的居 民消费问题,该区域共有80户家庭组成 ,将这80户家庭视为一个统计总体。
32
函数f (Xi)采取什么函数形式,是一个
需要解决的重要问题。在实际经济系统
中,我们不会得到总体的全部数据,因
而就无法据已知数据确定总体回归函数 的函数形式。同时,对总体回归函数的 形式只能据经济理论与经验去推断。

第二章 一元线性回归


n ei 0 i 1 n xe 0 i i i 1
经整理后,得正规方程组
n n ˆ ˆ n ( x ) 0 i 1 yi i 1 i 1 n n n ( x ) ˆ ( x 2 ) ˆ xy i 0 i 1 i i i 1 i 1 i 1
y ˆ i 0 1xi ˆi 之间残差的平方和最小。 使观测值 y i 和拟合值 y
ei y i y ˆi
n
称为yi的残差
ˆ , ˆ ) ˆ ˆ x )2 Q( ( y i 0 1i 0 1
i 1
min ( yi 0 1 xi ) 2
i
xi x
2 ( x x ) i i 1 n
yi
2 .3 最小二乘估计的性质
二、无偏性
ˆ ) E ( 1
i 1 n
n
xi x
2 ( x x ) j j 1 n
其中用到
E ( yi )
( x x) 0 (xi x) xi (xi x)2
二、用统计软件计算
1.例2.1 用Excel软件计算
什么是P 值?(P-value)
• P 值即显著性概率值 ,Significence Probability Value

是当原假设为真时所得到的样本观察结果或更极端情况 出现的概率。
P值与t值: P t t值 P值



它是用此样本拒绝原假设所犯弃真错误的真实概率,被 称为观察到的(或实测的)显著性水平。P值也可以理解为 在零假设正确的情况下,利用观测数据得到与零假设相 一致的结果的概率。
2 .1 一元线性回归模型

第2章一元线性回归模型

第二章
一元线性回归模型
回归分析是计量经济学的基础内容!
本章介绍一元线性回归模型,最小二乘估计方法及 其性质,参数估计的假设检验、预测等。
浙江财经大学 倪伟才
1
本章主要内容
2 .1 一元线性回归模型
2 .2 参数β0、β1的估计
2 .3 最小二乘估计的性质
2 .4 回归方程的显著性检验 2 .5 残差分析 2 .6 回归系数的区间估计
浙江财经大学 倪伟才 10
回归的术语
y的各种名称: 因变量(dependent variable)或被解释变量 (explained variable)或回归子(regressand)或内 生(endogenous); X的各种名称: 自变量(independent variable)或解释变量 (explanatory variable)或回归元(regressor)或外 生(exogenous) U的各种名称: 随机误差项或随机扰动项(stochastic error term, random disturbance term ): 表示其它因素的影响,是不可观测的随机误差!
浙江财经大学 倪伟才
9
2.1一元线性回归模型
由于两个变量y, x具有明显的线性关系,故考虑直 线方程y=0+1x(函数表达的是确定性关系,有缺 陷!) y=0+1x+u, 其中u表示除x外,影响y的其它一切 因素。 将y与x之间的关系用两部分来描述: a. 一部分0+1x ,由x的变化引起y变化; b.另一部分u ,除x外的其它一切因素引起y变化。 参数(parameters) 0 , 1 ; 0 称为回归常数(截距)(intercept, constant), 1称为回归斜率(slope)
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

80,000,000 QMG
120,000,000
80,000,000 QMG
120,000,000
17
2. 简单相关分析
计算简单相关系数 1. 菜单方法 从EViews主菜单中点击 Quick键,选择Group Statistic/Correlation 功能 2. 命令方法 cor qmg mob pmg pop gnp
R 2 k 1 F 1 R 2 T k


在原假设为误差正态分布下,统计量服从 F k 1, T k 分布。
8
F统计量下的P值,即Prob(F-statistic), 是F检验的边际显 著性水平。如果P值小于所检验的边际显著水平,比如说0.05, 则拒绝所有系数都为零的原假设。对于上面的例子,P值为

3 遗漏变量检验法
– View/Coefficient Test/Ommitted variables – Eq_names.testadd ommitted_series_list
例:equz.testadd pgnp
自变量的选择
自变量的选择
4 冗余变量检验法
– View/Coefficient Test/Redundant variables – Eq_names.testdrop redundant_series_list
2 减少。在极端的情况下,如果把样本观测值都作为自变量,总能得到 R 为1。
调整后的通常解释为
算方法如下: R2
,消除
中对模型没有解释力的新增变量。计
R
2
R2
R 2 1 1 R2
2


T 1 T k 1
R 2从不会大于 R ,随着增加变量会减小,而且对于很不适合的模型还
可能是负值。
第2章 线性回归分析
1
各类统计量
1、 R 2统计量
R 2 统计量衡量在样本内预测因变量值的回归是否成功。R 2 是自变量所解
释的因变量的方差。如果回归完全符合,统计值会等于1。如果结果不比因
变量的均值好,统计值会等于0。 R 2可能会由于一些原因成为负值。例如, 回归没有截距或常数,或回归包含系数约束,或估计方法采用二阶段最小二
预测





设置 (1)预测值序列名:用于存放预测值。系统 默认名称是在原因变量名后加一个F. (2)预测范围:用户可根据需要确定预测的 起止时间。 (3)预测方法 (4)输出选项:Forecast graph 输出预测图; Forecast evaluation 输出预测评价指标。 (5)是否插入实际值。
稳定性检验
稳定性又称参数的超样本特性,是指用 不同区间的样本建立同一模型,模型的 参数没有显著差异。 如果模型参数具有超样本特性,说明因 变量与自变量的关系十分稳定,依据这 样的关系进行预测就十分可靠。 稳定性检验包括:Chow断点检验、Chow 预测检验、Quant-Andrew断点检验, Ramsey重置检验和循环估计。

2. 简单相关分析
计算简单相关系数 3. 对群对象进行操作 group01.cor group g02 qmg mob pmg pop gnp g02 scat(m) g02.cor

最小二乘估计

1、建立模型 一是选object/new object,在新建对象对话框 中选对象为Equation,并命名,点击OK 另一是选Quick/estimate equation. 在方程定义一栏中的输入内容也有两种完全 等价的选择:一是直接输入要拟合的方程式 Qmg=c(1)+c(2)*car+c(3)*pmg+c(4)*pop+c(5)*r gnp 另一是直接输入变量列表 Qmg c car pmg pop rgnp
我们进行模型选择时,AIC值越小越好。例如,可以通过选择最小AIC值 来确定一个滞后分布的长度。
7
9、Schwarz准则
Schwarz准则是AIC准则的替代方法:
SC 2l T k log T T
10、F统计量和边际显著性水平
F统计量检验回归中所有的系数是否为零(除了常数或截距)。对于普通 最小二乘模型,F统计量由下式计算:
i 1
T
sy
yi y 2 T 1 t 1
T
8、AIC准则(Akaike Information Criterion)
计算公式如下:
AIC 2l T 2k T
其中是对数似然值
T ˆˆ 1 log 2 log T 2
3
3、回归标准差 (S.E. of regression)
回归标准差是在残差的方差的估计值基础之上的一个总结。 计算方法如下:
ˆˆ s T K
4、残差平方和
ˆ y Xb
残差平方和可以用于很多统计计算中,为了方便,现在将
它单独列出:
ˆ y i X i b 2 ˆ

2.建模的命令操作 只需在主窗口命令行输入: Ls qmg=c(1) +c(2)*car+c(3)*pmg+c(4)*pop+c(5)*rgnp 或等价的输入变量列表 Ls Qmg c car pmg pop rgnp

3.创建方程对象 Object/New Object equation eq01 .ls Qmg c car pmg pop rgnp

200,000,000
160,000,000
120,000,000
80,000,000
40,000,000
0 1950
1955
1960
1965
1970 CAR RGNP
1975
1980 PMG
1985
QMG POP
14
2. 简单相关分析
画散点图 1. 菜单方法 从EViews主菜单中点击 Quick键,选择Graph/ Scatter功能 画图时应该先输入横轴的变量名,再输 入纵轴的变量名。 2. 命令方法 scat(m) qmg mob pmg pop gnp
零,因此,我们拒绝回归系数为零的原假设。注意F检验是
一个联合检验,即使所有的t统计量都是不显著的,F统计量 也可能是高度显著的。
9
1. 绘制统计图
菜单式操作 命令式操作 对象操作
10
多元线性回归模型案例

1950-1987年间美国机动汽油消费量和影 响消费量的变量数值。其中各变量表示: QMG-机动车汽油消费量;MOB-汽车保 有量;PMG-机动汽油零售价格;POP-人 口数;GNP-按照1982年美元计算的GNP; 以汽油消费量为因变量,其它变量为自 变量,建立一个回归模型。
2.4 自变量的选择

1 t检验法: 通过回归系数的显著性检验来决定 自变量的取舍。方法:检查输出的参数估计结 果,如果某些变量t检验的尾概率大于给定的显 著性水平alpha,则检验未通过,可以考虑删除 相应的自变量。 2 似然比检验(likelihood ratio test)法

自变量的选择
预测
2. 命令方式(Forecast) (1) 方程对象的窗口处于被打开状态时, 在主窗口命令行输入Forecast命令; (2)方程对象未处于被打开状态,可输入 命令:eq01.forecast qmgf
预测评价指标
1. 基于预测误差的评价指标 RMSE 均方根误差; MAE平均绝对误差 MAPE即平均绝对百分误差(0~5之间说 明预测精度极高,在10以内说明预测精 度高) Theil inequality coefficient, TIC希尔不等 系数 (0~1之间,取值越小越好)
乘法或ARCH方法。
EViews计算 R 2的公式为:
R 1
2
ˆˆ
y y y y

ˆ y Xb,
y yt T
t 1
T
其中,ˆ 是残差, y 是因变量的均值。
2
2、调整 R 2
使用 R 2 作为衡量工具存在的一个问题,即在增加新的自变量时 2 不会 R
1. 绘制统计图
1. 菜单方法 从EViews主菜单中点击 Quick键,选择Graph功能 2. 命令方法 line(m) qmg mob pmg pop gnp group group1 qmg mob pmg pop gnp line(m) group1

1. 绘制统计图
画散点图 3. 创建图形对象 从EViews主菜单中点击 Object/New Object键,选择Graph功能 菜单式操作 命令方式
i 1
4
t
5、对数似然函数值 EViews可以作出根据系数的估计值得到的对数似然函数值
(假设误差为正态分布)。似然比检验可通过观察方程严格形
式和不严格形式的对数似然值之间的差异来进行。 对数似然计算如下:
T ˆˆ 1 log 2 log T 2
5
6、Durbin-Watson 统计量

2. 简单相关分析
3. 创建图形对象操作 graph graph01. scat(m) qmg mob pmg pop gnp

200,000,000
1.4 1.2
160,000,000 1.0 120,000,000
PMG CAR
0.8 0.6
80,000,000 0.4 40,000,000 40,000,000 0.2 40,000,000
例:eq01.testdrop pop
自变量的选择
自变量的选择:建议
相关文档
最新文档