第4章 线性回归经典假设的分析
线性回归分析PPT

分析宏观经济因素对微观 经济主体的影响,为企业 决策提供依据。
评估政策变化对经济的影 响,为政策制定提供参考。
市场分析
STEP 02
STEP 03
评估市场趋势和竞争态势, 为企业战略规划提供支持。
STEP 01
分析消费者行为和偏好, 优化产品设计和营销策略。
预测市场需求和销售量, 制定合理的生产和销售计 划。
参数解释
(beta_0) 是截距项,表示当所有自变量值为0时,因变量的值;(beta_1, beta_2, ..., beta_p) 是斜率项,表示自 变量变化一个单位时,因变量变化的单位数量。
线性回归分析的假设
线性关系
自变量和因变量之间存在线性关系, 即它们之间的关系可以用一条直线近 似表示。
01
02
无多重共线性
自变量之间不存在多重共线性,即它 们之间没有高度的相关性,每个自变 量对因变量的影响是独特的。
03
无异方差性
误差项的方差不随自变量的值变化。
无随机性
误差项是随机的,不包含系统的、可 预测的模式。
05
04
无自相关
误差项之间不存在自相关性,即一个 误差项与另一个误差项不相关。
Part
02
线性回归模型的建立
确定自变量与因变量
01
根据研究目的和数据特征,选择 与因变量相关的自变量,并确定 自变量和因变量的关系。
02
考虑自变量之间的多重共线性问 题,避免选择高度相关的自变量 。
散点图与趋势线
通过绘制散点图,观察自变量与因变 量之间的关系,了解数据的分布和趋 势。
根据散点图的分布情况,选择合适的 线性回归模型,如简单线性回归或多 元线性回归。
计量经济学课程第4章(多元回归分析)

§4.1 多元线性回归模型的两个例子
一、例题1:CD生产函数
Qt AKt 1 Lt 2 et
这是一个非线性函数,但取对数可以转变为一个 对参数线性的模型
ln Qt 0 1 ln Kt 2 ln Lt t
t ~ iid(0, 2 )
注意:“线性”的含义是指方程对参数而言是线 性的
R 2 1 RSS /(N K 1) TSS /(N 1)
调整思想: 对 R2 进行自由度调整。
Page 20
基本统计量TSS、RSS、ESS的自由度:
1.
TSS的自由度为N-1。基于样本容量N,TSS
N i1
(Yi
Y
)2
因为线性约束 Y 1 N
Y N
i1 i
而损失一个自由度。
分布的多个独立统计量平方加总,所得到的新统计量就服从
2 分布。
《计量经济学》,高教出版社2011年6月,王少平、杨继生、欧阳志刚等编著
Page 23
双侧检验
概 率 密 度
概率1-
0
2 1 / 2
2 /2
图4.3.1
2
(N-K-1)的双侧临界值
双侧检验:统计值如果落入两尾中的任何一个则拒绝原假设
《计量经济学》,高教出版社2011年6月,王少平、杨继生、欧阳志刚等编著
Page 24
单侧检验
概 率 密 度
概率 概率
0
2 1
2
图4.3.2 (2 N-K-1)的单侧临界值
H0:
2
2,
0
HA :
2
2 0
线性回归模型的经典假定及检验修正

线性回归模型的经典假定及检验、修正一、线性回归模型的基本假定1、一元线性回归模型一元线性回归模型是最简单的计量经济学模型,在模型中只有一个解释变量,其一般形式是Y =β0+β1X 1+μ其中,Y 为被解释变量,X 为解释变量,β0与β1为待估参数,μ为随机干扰项。
回归分析的主要目的是要通过样本回归函数(模型)尽可能准确地估计总体回归函数(模型)。
为保证函数估计量具有良好的性质,通常对模型提出若干基本假设。
假设1:回归模型是正确设定的。
模型的正确设定主要包括两个方面的内容:(1)模型选择了正确的变量,即未遗漏重要变量,也不含无关变量;(2)模型选择了正确的函数形式,即当被解释变量与解释变量间呈现某种函数形式时,我们所设定的总体回归方程恰为该函数形式。
假设2:解释变量X 是确定性变量,而不是随机变量,在重复抽样中取固定值。
这里假定解释变量为非随机的,可以简化对参数估计性质的讨论。
假设3:解释变量X 在所抽取的样本中具有变异性,而且随着样本容量的无限增加,解释变量X 的样本方差趋于一个非零的有限常数,即∑(X i −X ̅)2n i=1n→Q,n →∞ 在以因果关系为基础的回归分析中,往往就是通过解释变量X 的变化来解释被解释变量Y 的变化的,因此,解释变量X 要有足够的变异性。
对其样本方差的极限为非零有限常数的假设,旨在排除时间序列数据出现持续上升或下降的变量作为解释变量,因为这类数据不仅使大样本统计推断变得无效,而且往往产生伪回归问题。
假设4:随机误差项μ具有给定X 条件下的零均值、同方差以及无序列相关性,即E(μi|X i)=0Var(μi|X i)=σ2Cov(μi,μj|X i,X j)=0, i≠j随机误差项μ的条件零均值假设意味着μ的期望不依赖于X的变化而变化,且总为常数零。
该假设表明μ与X不存在任何形式的相关性,因此该假设成立时也往往称X为外生性解释变量随机误差项μ的条件同方差假设意味着μ的方差不依赖于X的变化而变化,且总为常数σ2。
线性回归的前提条件

线性回归的前提条件线性回归的前提假设条件是:(1)自变量与因变量是否呈直线关系。
(2)因变量是否符合正态分布。
(3)因变量数值之间是否独立。
(4)方差是否齐性。
其实如果正规地来说,应该是看残差(residual)是否正态、独立以及方差齐。
所谓残差,就是因变量的真实值与估计值之间的差值。
回归分析是一类统计方法,包括本次介绍的线性回归以及后面将要介绍的logistic回归、Cox回归等,该类方法内容十分丰富,在医学应用中也极为广泛。
回归分析主要是通过建立回归方程来说明某一个事物随另一个(或多个)事物的变化而变动的规律。
相关分析研究的是两个或多个变量相互依存变动的规律,见统计分析之相关,而回归分析则是探索某变量(因变量)如何依赖于其他变量(自变量)的变化而变动的规律,是单方依存,而不是相互依存。
回归分析主要根据因变量的类型而划分不同方法,线性回归其因变量必须是定量变量,后面介绍的logistic回归、Cox回归等因变量则属于其他类型。
线性回归可以说是回归家族中最为经典的方法,同时也是相对简单、容易理解的方法。
本系列主要介绍线性回归的应用,具体内容包括:(1)线性回归的单因素分析;(2)线性回归的多因素分析;一、线性回归简介线性回归是研究因变量(dependent variable)与自变量(independent variable)相依关系的技术。
因变量又称应变量(response variable),是随机变量,具有一个随机分布,依赖于一个或多个自变量。
自变量有时也被称为解释变量(explanatory variable)或预测变量(predictor variable),是非随机的,不依赖于其他变量。
线性回归中的因变量必须是定量变量,自变量可以是定量变量,也可以是分类变量。
例如研究体重对高血压的影响,体重是自变量,高血压受体重的影响,是因变量。
线性回归大致可分为三类:当因变量有一个,自变量也只有一个时,称之为简单线性回归(simple linear regression);当因变量有一个,自变量有多个时,称之为多重线性回归(multiple linear regression);当因变量有多个,自变量有多个时,称之为多元回归(multi-variate regression)。
计量经济学 经典假设

假设ቤተ መጻሕፍቲ ባይዱ. 回归模型是线性的,被正确设定,且含 义随机误差项;
假设2. 随机误差项具有零均值、同方差和不 序列相关性:
E(i)=0 Var (i)=2 Cov(i, j)=0
i=1,2, …,n i=1,2, …,n i≠j i,j= 1,2, …,n
.
假设3. 随机误差项与所有的解释变量X之 间不相关:
Cov(Xi, i)=0 i=1,2, …,n 假设4. 服从零均值、同方差、零协方差的 正态分布
i~N(0, 2 ) i=1,2, …,n
.
注意:
1. 如果假设1、2满足,则假设3也满足; 2. 如果假设4满足,则假设2也满足。
以上假设也称为线性回归模型的经典假 设或高斯(Gauss)假设,满足该假设的线性 回归模型,也称为经典线性回归模型 (Classical Linear Regression Model, CLRM)。
以上假设也称为线性回归模型的经典假设或高斯gauss假设满足该假设的线性回归模型也称为经典线性回归模型classicallinearregressionmodelclrm
§4 经典回归模型与高斯定理
.
重要的理论问题:
第一,“经典”的含义是什么? 第二,“经典”的意义(违背的后果)。
.
一、线性回归模型的基本假设
.
.
另外,在进行模型回归时,还有两个暗含的 假设:
假设5. 没有一个解释变量是其他任何解释 变量的完全线性函数。
假设6. 误差项服从正态分布
.
二、无偏估计量的含义
1. 定义 2. 几何意义 3. 特别注意
.
三、方差的性质
1. 几何意义 2. 改善方法 3. 特别注意
计量经济学-第4章

问题本质
OLS的估计思想:
(1)寻找参数估计量 ˆ0,ˆ1,,ˆK,使得样本回归
函数与所有样本观测点的偏离最小,即残差平方 和最小。
为什么不选择离差之和最小化或者离差绝对 值之和最小化呢?
因为离差之和会使正负误差抵消,而离差绝对 值不便于数学上做优化处理,所以选择了离差平 方和最小化作为优化目标,这也就是为什么这种 估计方法被称为最小二乘法的原因。
《计量经济学》,高教出版社2019年6月,王少平、杨继生、欧阳志刚1等3 编著
2. 回归系数的OLS估计:以二元回归模型为例
Y i01 X 1 i2 X 2 ii
基于残差平方和的最小化,得到正规方程组:
ˆ N i1 i
0
X N i1 1i
ˆi
0
X N i1 2i
以原假设的参数值作为检验统计量中的参数真值。如果原 假设为“真”,则检验统计量就服从相应的理论分布。反 之,检验统计量就不服从该分布。
基于所选择的显著性水平,将检验统计量的理论分布区间 划分为小概率的“拒绝域”和大概率的“不拒绝域”。
根据参数的估计值计算检验统计量的值。如果检验统计值 出现在拒绝域,根据“小概率事件原理”,原假设很可能 是“假”的,则拒绝原假设。反之,就没有充分的理由拒 绝原假设。
二、 多元线性回归模型的一般形式
一般形式可以表述为如下的形式:
Y i0 1 X 1 i K X K ii
i1,2,,N
均值方程
E ( Y iX 1 i, ,X K ) i 0 1 X 1 i K X Ki
线性回归方程与均值方程的联系
Y i E (Y i X 1i, ,XK)ii
《计量经济学》,高教出版社2019年6月,王少平、杨继生、欧阳志刚等5 编著
线性回归基本假设PPT课件

参数检验
对模型参数进行统计检验,如t检 验、F检验等,以确保参数的显著 性和合理性。
模型复杂度的控制与调整
模型复杂度评估
评估模型的复杂度,以避免过拟合或欠拟合现象。常用的 评估指标包括残差平方和、R方值、AIC值等。
正则化
实例三:消费者行为预测模型
总结词
利用消费者行为数据,建立线性回归模型,预测消费者购买决策。
详细描述
收集消费者行为数据,如购买历史、浏览记录、搜索关键词等,通过线性回归模型分析消费者偏好和 购买决策的影响因素,预测消费者未来的购买行为。
感谢观看
THANKS
03
线性回归模型的检验
模型的拟合优度检验
确定系数R²
残差图
用于衡量模型解释变量变异的能力, R²越接近于1,说明模型拟合优度越 高。
通过观察残差是否随机分布在0值周 围,可以初步判断模型拟合优度。
调整确定系数R²
考虑到模型中自变量的数量,调整后 的R²可以更准确地评估模型拟合优度 。
模型的参数显著性检验
t检验
用于检验回归系数的显著性,通 过比较回归系数与0的差异,判断 自变量对因变量的影响是否显著。
F检验
用于检验整个模型的显著性,通过 比较模型与简单回归模型的差异, 判断自变量对因变量的影响是否显 著。
z检验
当自变量属于虚拟变量时,可以使 用z检验来检验回归系数的显著性。
模型的预测能力检验
预测残差图
通过L1或L2正则化方法对模型复杂度进行控制,以减少过拟合 风险。正则化项会在损失函数中加入惩罚项,以惩罚较大的模
型参数。
特征选择
线性回归经典假设的分析(案例)

线性回归经典假设的分析(案例)多重共线性分析财政收入是一个国家政府部门的公共收入。
国家财政收入的规模大小往往是衡量其经济实力的重要标志。
近20年来,我国财政收入一直保持着快速增长态势,经济总体发展良好。
一个国家财政收入的规模要受到经济规模等诸多因素的影响。
因此我们以财政收入为被解释变量,建立财政收入影响因素模型,分析影响财政收入的主要因素及其影响程度。
财政收入的因素众多复杂,但是通过研究经济理论对财政收入的解释以及对实践的考察,我们选取影响财政收入的因素为工业总产值、农业总产值、建筑业总产值、社会商品零售总产值、人口总数和受灾面积。
将这六个变量作为解释变量,财政收入作为被解释变量,利用1989~2003年数据建立中国国家财政收入计量经济模型,资料如下表。
表1 影响财政收入的因素资料(资料来源:《中国统计年鉴2004》)使用上述数据建立多元线性模型,采用普通最小二乘法得到国家财政收入估计方程为:1234562(0.46)(0.44)(8.59)(0.03)(3.80)(0.65)( 1.53)6922.5880.1260.9360.0400.5720.0920.0470.998620.56Y X X X X X X R F ---=-+-+++-==由上可以看出模型的拟合优度2R 和F 值都较大,说明建立的回归方程显著。
但在显著性水平为5%下, t (15)=2.131,大多数回归参数的t 检验不显著,若据此判断大部分因素对财政收入的影响不显著。
因此可以判定解释变量之间存在严重的多重共线性。
采用逐步回归法对解释变量进行筛选。
分别将Y 与各解释变量作一元线性回归方程,以拟合优度值最大的模型为基础,将其余变量依次引入方程中。
经过我们多次比较各模型的F 值和各参数的t 值,最终确定的模型为:242(1.79)(13.42)(35.57)519.6780.8120.7230.9971943.91Y X X R F -=-+==该模型的经济意义十分明显,即财政收入主要取决于农业总产值和社会商品零售总产值,各因素数量的变化引起财政收入总量变化的程度由各自的系数来反映。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3、 0 rxi x j 1 ,解释变量间存在一定程度的线 性关系。实际中常遇到的是这种情形。随着共线 性程度的加强,对参数估计值的准确性、稳定性 带来影响。因此我们关心的不是有无多重共线性, 而是多重共线性的程度。 这里需要说明的是,在解决实际问题的过程中, 经济变量在时间上有共同变化的趋势。如在经济 上升时期,收入、消费、就业率等都增长,当经 济处于收缩期,收入、消费、就业率等都下降或 增长率下降。当这些变量同时做解释变量就会给 模型带来多重共线性问题。另外,解释变量与其 滞后变量同作解释变量时,也会引起多重共线性。
三、逐步回归法
逐步回归法的基本思想是,首先用被解释变量对每一个 所考虑的解释变量做简单回归,然后以对被解释变量贡献 最大的解释变量所对应的回归方程为基础,以对被解释变 量贡献大小为顺序逐个引入其余的解释变量。 这个过程会出现3种情形。①若新变量的引入改进了和检 验,且回归参数的t检验在统计上也是显著的,则该变量 在模型中予以保留。②若新变量的引入未能改进和检验, 且对其他回归参数估计值的t检验也未带来什么影响,则 认为该变量是多余的,应该舍弃。③若新变量的引入未能 改进和检验,且显著地影响了其他回归参数估计值的符号 与数值,同时本身的回归参数也通不过t检验,这说明出 现了严重的多重共线性,舍弃该变量。
3、先验信息。 如果通过经济理论分析能够得到某些参数之间的 线性关系,可以将这种线性关系作为约束条件, 将此约束条件和样本信息结合起来进行最小二乘 估计。
为了进一步说明问题,假设我们考虑模型
Yi 1 2 X 2i 3 X 3i i
如果依据长期的经验分析可以认为两个解释变量 的系数相互关系为 3 0.3 2 ,运用这个先验信息 有
4.1.3 多重共线性的克服及岭回归方法
如果多重共线性较为严重,我们该如何处理?一 般来说没有一个十分严格的克服多重共线性的方 法。但是,可以尽量的降低线性回归模型中存在 的多重共线性。 这里介绍一些经验规则和理论方法以便克服或降 低多重共线性问题时参考。
一、克服多重共线性的经验方法
1、剔除变量。 面对严重的多重共线性,最简单的克服方法之一 就是剔除一个共线性的变量。但是,如果从模型 中剔除的是重要的解释变量,可能会引起模型的 设定误差。所谓设定误差是指在回归分析中使用 了不正确的模型。我们知道,在解释粮食产量的 模型中,应该包括播种面积和施肥量,那么剔除 播种面积这个变量,就会构成设定误差。当模型 中出现设定误差时,线性模型的分析出现的问题 会更为严重,其中问题之一是当出现设定误差时, 回归系数的估计值是有偏的,这与多重共线性相 比是一个更为严重的问题。
i j
三、特征值与病态指数。 根据矩阵行列式的性质,矩阵的行列式等于其特 征根的连乘积。因而当行列式 XX 0 时,矩 阵 X’X 至少有一个特征根近似等于零。反之,可 以证明,当矩阵X’X至少有一个特征根近似等于 零时,X的列向量之间必存在多重共线性。
实际上,设 是矩阵X’X的一个近似等于零特征根,c是 对应于该特征根的特征向量,则 XXc c 0 (4.2) 对(4.2)式两边左乘c’,即有 cXXc 0 Xc 0 即 从而 c0 c1 X 1i c2 X 2i ck X ki 0 (4.3) 这里(4.3)式就反映出了前面所定义的多重共线性。我 们应该注意到,矩阵X’X有多少个特征根近似为零,设计 矩阵就会有多少个类似(4.3)式多重共线性关系,并且 这些多重共线关系系数向量就等于接近于零的那些特征根 对应的特征向量。
另外,特征根近似为零的标准可以用下面的病态指数 (condition index)来确定。记X’X的最大特征根为 m , 称 m j 0,1,, k CI j (4.4) j 为特征根的病态指数。注意特征根的个数与病态指数都包 含了常数项在内。 病态指数度量了矩阵 X X 的特征根散布程度,可以用来判 断多重共线性是否存在以及多重共线性的严重程度。 一般认为,当0<CI<10时,设计矩阵X没有多重共线性; 当10<CI<100时,认为设计矩阵X存在较强的多重共线性; 当CI>100时,则认为存在严重的多重共线性。
ˆ β
然而,在实际问题中,某些解释变量之间不是完 全线性相关的或接近完全线性相关的。 就模型中解释变量的关系而言,有三种可能。 rxi x j 0,解释变量间毫无线性关系,变量间相 1、 互正交。这时已不需要多重回归,每个参数j都 可以通过Y对 X j的一元回归来估计。 rxi x j 1 ,解释变量间完全共线性。此时模型参 2、 数将无法确定。直观地看,当两变量按同一方式 变化时,要区别每个解释变量对被解释变量的影 响程度就非常困难。
其中,ΔYi Yi Yi 1
, ,
ΔX 2i X 2i X 2i 1 ,
ΔX ki X ki X ki1
Δ i i i 1
, 。
一般情况,差分变换后变量之间的相关性比变换 前要弱的多,所以差分后的模型可以有效地降低 出现共线性的现象。 然而,差分变换常常会引起信息的丢失,使自由 度减少了一个,也可能会使得模型的干扰项出现 序列相关,即
E ( Δ i Δ i 1 ) E[( i i 1 )( i 1 i 2 )] E ( i i 1 i i 2 i 1 i 1 i 2 )
2
E ( i 1 ) 2
2
这样就违背了经典线性回归模型的相关假设,因 此在具体应用时要慎重。关于序列相关的有关内 容将在] E[(XX) 1 X(Xβ ε)] β (XX) 1 XE(ε) β E(β
然而,当 rx x 1 时, X X 接近降秩矩阵, 2 1 ˆ X X 0 Var ( β ) ( X X ) 即 , 变得很大。 ˆ β 所以 丧失有效性。 以二元解释变量线性模型为例,当 rx x 0.8 时, ˆ) ˆ Var (β 为 rxi x j 0 时 β 方差的2.78倍。当 rx x 0.95 时, ˆ) Var (β 为 rxi x j 0 时的10.26倍。
二、一阶差分方法
一阶差分法就是将原模型变形为差分模型的形式, 进而降低多重共线性的一种方法。 将原模型 Yi 1 2 X 2i 3 X 3i k X ki i 经过一阶差分变换为
ΔYi 2 ΔX 2i 3 ΔX 3i k ΔX ki Δ i
Yi 1 2 X 2i 3 X 3i i 1 2 X i i 1 2 X 2i 0.3 2 X 3i i
ˆ ,然 其中, X i X 2i 0.3X 3i 。这样可以估计出 2 ˆ 。 后可以得到 3
另外,我们应该注意到,横截面数据与时间序列 数据并用也是先验信息法的一种变形,这种方法 称为数据并用(pooling the data)。其基本思想 是,首先利用横截面数据估计出部分参数,再利 用时间序列数据估计另外的部分参数,最后得到 整个方程参数的估计。
第4章 线性回归经典假设的分析
多重共线性 异方差性 序列相关性 实证分析
第一节
多重共线性
多重共线性含义及引起的后果 多重共线性的检验 多重共线性的克服及岭回归方法
4.1.1 多重共线性含义及引起的后果
一、多重共线性的含义 “多重共线性”一词由R. Frisch 1934年提出, 它原指模型的解释变量间存在线性关系。针对 总体回归模型(2.2)式 Y Xβ ε , 的经典假设条件,要求 rank(XX) rank( X) k n (4.1) 即要求矩阵X满秩。X满秩就能保证行列式 ˆ 。如 XX 0 ,从而可以得到参数的估计值 β 果这个假设条件不满足,即 rank( X) k ,就表 明某些解释变量之 间存在完全的线性相关关系, 在这种情形下,根本无法求出参数的估计值 。
四、岭回归法
当在建立计量经济模型存在多重共线性时,最小 二乘估计的性质就不够理想,有时甚至遭到破坏。 在这种情况下,要从本质上克服多重共线性,就 需要一些新的估计方法。近四十年来,人们提出 了许多新的估计方法,其在理论上最有影响并得 到广泛应用的就是岭估计(ridge regression)。 为了能够较为深入了解岭回归方法,并进一步说 明岭估计量的优良性,我们引进评价一个估计优 劣的标准——均方误差(mean squared errors)。
ˆ*) b E( 2 2 3 32
2、增加样本容量。 由于多重共线性是一个样本特征,所以有可能在 同样变量的另一样本中共线性问题并不严重。这 样只需要增大样本容量就能减轻共线性问题。看 来增加样本容量可能是克服共线性的一个好方法, 但在实际解决问题时,我们补充数据扩大样本容 量并不是一件容易的事情,特别是在建立计量经 济模型时所希望的解释变量的值就更困难。
3i
1i ) )
2 i 1i
所以,
(4.5) 当解释变量之间存在多重共线性时,b32 是不会为 ˆ*) 零的,从而由(4.5)式知, E( 2 2 这说明如果因为有多重共线性而将一共线变量删 除会导致有偏估计,而有偏估计对参数的估计来 说,是一个更为严重的问题。在这里我们需要提 及的是,在不完全共线的情形下,OLS估计量仍 然是BLUE。
x y x Y x ( X X x x x x x X x X x x x X x x x x ˆ b x
2i i 2i i 2 2i 2i 1 2 2i 3 2 2 2i 2i 1 2i 2 2i 2i 3 2i 3i 2 2i 2i 3i 2 i 1i 2 2i 2 3 2 2i 2 i 1i 2 2i 2 3 32
二、多重共线性引起的后果
如果解释变量之间存在明显的相关关系,即存在 严重的多重共线性,将会影响模型的构建。 1 r 1 ( X X ) 1、当 ,X为降秩矩阵,则 不 xi x j ˆ (XX) 1 XY β 存在, 不可计算。 ˆ 仍具有无 2、若 rxi x j 1 ,即使 rx x 1 ,β 偏性,即