一元线性回归模型检验
一元线性回归模型的统计检验

注意英文缩写的含义
TSS: Total Sum of Squares / 总离差平方和
RSS: Regression Sum of Squares / 回归平方和 Residual Sum of Squares / 残差平方和
ESS: Error Sum of Squares / 误差平方和(残差平方和) Explained Sum of Squares / 解释平方和(回归平方和)
(2)变量的显著性检验
对于最小二乘估计量ˆ1,已经知道它服从正态分布
ˆ1 ~ N(1,
2
xБайду номын сангаас2 )
由于真实的 2未知,在用它的无偏估计量ˆ 2
ei2 (n 2)替代时,可构造如下统计量
t ˆ1 1 ˆ1 1 ~ t(n 2)
ˆ 2 xi2
假设检验采用的是具有概率性质的反证法。先 假定原假设正确,然后根据样本信息,观察由此 假设而导致的结果是否合理,从而判断是否接受 原假设。判断结果合理与否,依据是小概率事件 原理。
假设检验的步骤: (1)提出原假设和备择假设; (2)根据已知条件选择检验统计量; (3)根据显著性水平确定拒绝域或临界值; (4)计算出统计量的样本值并作出判断。
其中X 和Y 分别是变量X与Y的样本均值。 r的取值范围是:[-1,1]
(4)样本可决系数与样本相关系数的关系 联系:
在数值上, 一元线性回归模型的样本可决系 数等于被解释变量与解释变量之间样本相关系数 的平方:
r2
yˆi2 yi2
ˆ12
xi2 yi2
( (
xi yi )2 xi2 )2
所以有
yi2 yˆi2 ei2
一元线性回归模型的统计检验

3. 怎样进行拟合优度检验 (1)总离差平方和的分解 已知有一组样本观测值( Xi ,Yi )(i 1, 2, , n),得到 如下样本回归直线:
Yˆi ˆ0 ˆ1Xi
Y的第i个观测值与样本均值的离差yi Yi Y 可分 解为两部分之和:
yi Yi Y Yi Yˆi Yˆi Y ei yˆi (1)
规则:p值越小,越能拒绝原假设H0.
三、回归系数的置信区间
对参数作出的点估计虽然是无偏估计,但一 次抽样它并不一定等于真实值,所以需要找到包 含真实参数的一个范围,并确定这个范围包含参 数真实值的可靠程度。
在变量的显著性检验中已经知道:
t ˆi i ~ t(n 2) i=0,1
Sˆi
给出置信度1,查自由度为(n 2)的t分布表,
假设检验的步骤: (1)提出原假设和备择假设; (2)根据已知条件选择检验统计量; (3)根据显著性水平确定拒绝域或临界值; (4)计算出统计量的样本值并作出判断。
(2)变量的显著性检验
对于最小二乘估计量ˆ1,已经知道它服从正态分布
ˆ1 ~ N(1,
2
xi2 )
由于真实的 2未知,在用它的无偏估计量ˆ 2
在上述收入——消费支出的例子中,如果给定
=0.01,查表得:
t 2 (n 2) t0.005 (8) 3.355
由于
Sˆ1 0.042
Sˆ0 98.41
于是,计算得到1、0的置信区间分别为:
(0.6345,0.9195)
(-433.32,226.98)
则
TSS RSS ESS
Y的观测值围绕其均值的总离差可分解为两部 分:一部分来自回归线(RSS),另一部分则来自随 机势力(ESS)。因此,我们可以用回归平方和RSS 占Y的总离差平方和TSS的比例来度量样本回归线 与样本观测值的拟合优度。
5第五章 一元线性回归的假设检验

(OLS)估计量有最小方差。这使得OLS估计 量有着优良的性质可以进行统计推断
完全满足这些假定的方程在现实中是不存 在的,但这些假定为我们提供了一个比较 的基准,本课其他部分主要是围绕假定不 被满足时,分析后果,提出解决办法。返 回
第二节 OLS估计量的性质:高斯-马 尔可夫定理 p127
一、高斯-马尔可夫定理
当X是非随机的时,该假定自动满足 X是抽样时候人为设定的:比如前例中把家庭收入分
组
假定5:正态性假定:随机误差项服从正态分布
i ~ N (0, )
2
假定6:样本容量N>待估参数个数 假定7:解释变量 X值有变异性
即X有一个相对较大的取值范围 如果X只在一个狭窄的范围内变动,则无法充分估计X
若
|t| t /2(n-2),则拒绝H1 ,接受H0 ;返回
4、例题:葡萄酒拍卖价格的回归分 析
数据 应变量: ln(price): 1952~1980年间共10批, 用来自六个葡萄种植场的的葡萄酿造的60种不同 葡萄酒的价格,取其对数形式 自变量:
Age: 葡萄酒存放年数 Temp:葡萄生长期平均气温 Rain:8/9月份降雨量 Wrain:葡萄生长期前一年10月到次年3月降雨量
b
i
(n 2) Sb2i
b2
i
~ 2 (n 2)
ˆ bi bi 则t ~ t (n 2), 可以利用该信息进行统计检验 Sbi
返回
第三节 一元线性回归模型的假设检验 p130
一、检验 二、参数的显著性检验 三、回归的拟合优度检验 四、回归分析结果的报告 五、综合实例:美国商业部门工资和生产 率的关系 返回
第三节 一元线性回归模型的统计检验

ˆ ˆ ˆ y i = Yi − Y = (Yi − Yi ) + (Yi − Y ) = ei + y i
如果Yi=Ŷi 即实际观测值落在样本回归“线”上,则拟合最好 拟合最好。 拟合最好 可认为,“离差”全部来自回归线,而与“残差”无关。 “离差”
类似, 对多元线性回归方程 : ˆ ˆ ˆ yi = β 0 + β1 ⋅ x1i + L β k ⋅ xki ˆ
F检验与R检验结果一致(P44图2-7):
n − k −1 TSS = F= RSS RSS k (n − k − 1) TSS R n − k − 1 R2 = ⋅ k 1 − R2 kF 2 R = (n − k − 1) + kF
因此,实际应用可选择其一。
ESS
ESS
多元线性回归模型的显著性检验(F检验 多元线性回归模型的显著性检验 检验 模型的显著性检验 检验)
ˆ ) 2 + ∑ (Y − Y ) 2 = RSS + ESS ˆ 所以有: TSS = ∑ (Yi − Yi i
注意: 注意:一个有趣的现象
(Y − Y ) = (Y − Yˆ ) + (Yˆ − Y ) (Y − Y ) ≠ (Y − Yˆ ) + (Yˆ − Y ) ∑ (Y − Y ) = ∑ (Y − Yˆ ) + ∑ (Yˆ − Y )
总离差平方和分解公式 总离差平方和分解公式: TSS=ESS+RSS 公式 其中: 其中
则
TSS = Σ(Yi − Y ) 2 ˆ ˆ = Σ((Yi − Yi ) + (Yi − Y )) 2 ˆ ˆ ˆ ˆ = Σ(Yi − Yi ) 2 + 2Σ(Yi − Yi )(Yi − Y ) + Σ(Yi − Y ) 2
01-一元线性回归模型的拟合优度检验

或
模型的拟合效果较好
71
三、决定系数与相关系数的关系
n
n
(Xi X)(Yi Y)
xi yi
rXY
i1 n
n
i1
n
n
(Xi X)2 (Yi Y)2
xi2
yi2
i1
i1
i1
i1
n
xi yi
n
n
( xi yi )2 ˆ12 xi2
i 1
n
yi2
ESS TSS
R2
i 1
72
3
第三节 一元线性回归模型的拟合优度检验
拟合优度——指样本回归线对样本数据拟合的精确程度
拟合优度检验——检验样本回归线对样本数据拟合的精确程度
拟合优度检验方法——通过构造表征拟合优度的统计量,对模型的拟合 效果作出评价
拟合优度检验实质——通过残差平方和构造了拟合优度的度量指标一一 决定系数,其基础是被解释变量的离差分解。
同除以总体平方和 TSS
1 ESS RSS TSS TSS
(2-39)
n
ESS TSS
(Yˆi
i 1
n
Y)2
是模型中由解释变量解释的那部分离差占总离差的比重 yi2
i 1
(2-40)
决定系数( R2)
R2 ESS 1 RSS TSS TSS
(2-42)
n
RSS
ei2
i 1
TSS
n
yi2
rX2Y (
i1 n
xi2
i1
n
)2 yi2
i1
n
n
ห้องสมุดไป่ตู้
一元线性回归四种检验等效性证明

DOI 10.16221/ki.issn1671-1084.2019.04.020
一元线性回归四种检验等效性证明
陈立强
(河池学院,广西 河池 546300)
摘要:一元线性回归方程用 OLSE①法给定后,要用其解释或预测,必须先对其线性显著与否加以检
验。一般的检验方法有四种:F - 检验,t - 检验,(简单) 相关系数检验,拟合优度检验。对于一元线性
2 中 R 与 E 相互独立。引理见文献[3]。
收稿日期:2018-12-13 基金项目:广西壮族自治区教育厅教改项目 (2017JGB366);河池学院硕士专业学位建设基金课题 (2017YTA001) 作者简介:陈立强,河池学院教师,研究方向为数理统计。
92
则: 成立时,做统计量
,
R 和 E 定义同上,由引理 1,3 知道:
(1)
用法
得出经验回归方程:
经验回归方程得出后,要进行解释和预测,必
须先对其线性显著与否加以检验。用统计学术语,
就是检验:
。针 对 这 个
问题的检验,本文给出四种检验,并证明其等效。
引理 2(平方和分解式):令
=
,
(总离差平方和);
同引理 1 中的记号,则
有:
。
证明:上面
=
2 四种检验的构造
2.1 F - 检验的构造
, , 同前,
检验反映的是回归系数是否显著线性。
2.2 拟合优度检验
直观上看,回归效果越好,可以认为
中 R 占的比例越大,所以可以构造 ~ 来检验
回归的效果。当
,称回归效果好。
定义 1:把 称为样本决定系数。利用样本决
定系数的检验称之为拟合优度检验。
计量经济学实验二-一元线性回归模型的估计、检验和预测

目录一、加载工作文件 (7)二、选择方程 (7)1.作散点图 (7)2.进行因果关系检验 (9)三、一元线性回归 (10)四、经济检验 (12)五、统计检验 (13)六、回归结果的报告 (15)七、得到解释变量的值 (15)八、预测应变量的值 (17)实验二一元线形回归模型的估计、检验和预测实验目的:掌握一元线性回归模型的估计、检验和预测方法。
实验要求:选择方程进行一元线性回归,进行经济、拟合优度、参数显著性和方程显著性等检验,预测解释变量和应变量。
实验原理:普通最小二乘法,拟合优度的判定系数R2检验和参数显著性t检验等,计量经济学预测原理。
实验步骤:已知广东省宏观经济部分数据如表2-1所示,要根据这些数据研究和分析广东省宏观经济,建立宏观计量经济模型,从而进行经济预测、经济分析和政策评价。
实验二~实验十二主要都是用这些数据来完成一系列工作。
表2-1 广东省宏观经济数据续上表续上表一、加载工作文件广东省宏观经济数据已经制成工作文件存在盘中,命名为GD01.WF1,进入EViews后选择File/Open打开GD01.WF1。
二、选择方程根据广东数据(GD01.WF1)选择收入法国国内生产总值(GDPS)、财政收入(CS)、财政支出(CZ)和社会消费品零售额(SLC),分别把①CS作为应变量,GDPS作为解释变量;②CZ作为应变量,CS作为解释变量;③SLC作为应变量,GDPS作为解释变量进行一元线性回归分析。
1.作散点图从三个散点图(图2-1~图2~3)可以看出,三对变量都呈现线性关系。
图2-1 图2-2图2-3 2.进行因果关系检验从三个因果关系检验可以看出,GDPS是CS的因;CS不是CZ 的因;GDPS不是SLC的因。
但根据理论CS是CZ的因,GDPS是SLC的因,可能是由于指标设置问题。
所以还是把CS作为应变量,GDPS作为解释变量;CZ作为应变量,CS作为解释变量;SLC作为应变量,GDPD作为解释变量进行一元线性回归分析。
一元线性回归模型的参数检验

模型拟合的质量检验
1
残差分析
通过分析模型的残差,可以评估模型对数据的拟合程度。较小的残差表示模型拟合较好。
2
参数的显著性检验
通过t检验或F检验,判断模型参数是否显著。显著的参数表示自变量对因变量的影响是真实 存在的解释程度。取值范围为0到1,越接近1表示模型拟合的越 好。
残差分析
残差分析是评估一元线性回归模型拟合质量的重要方法。通过分析残差的分 布、模式和异常值,可以判断模型是否可靠。
参数的显著性检验
在一元线性回归模型中,参数的显著性检验是判断自变量对因变量的影响是否显著的方法。常用的方法有t检 验和F检验。
t检验的基本原理
t检验是一种用于检验样本均值与总体均值之间差异的统计方法。在一元线性 回归模型中,用于检验参数估计值与真实值之间的差异。
一元线性回归模型的参数 检验
在统计学中,一元线性回归模型是一种用于描述两个变量之间线性关系的模 型。本节将介绍一元线性回归模型的参数检验方法。
什么是一元线性回归模型?
一元线性回归模型用于分析一个自变量与一个因变量之间的线性关系。它通 过拟合一个直线来描述这种关系,并根据模型参数进行推断和解释。
数据预处理
在进行一元线性回归之前,需要对数据进行预处理,包括数据清洗、缺失值 处理和异常值检测。通过这些步骤,可以确保模型建立在可靠的数据基础上。
拟合一元线性回归模型
通过最小化残差平方和来拟合一元线性回归模型。这可以通过最小二乘法来 实现,求解模型参数使得预测值与观测值的差异最小。
模型参数的估计
一元线性回归模型的参数估计使用普通最小二乘法。通过计算样本数据的协 方差和方差,可以得到模型参数的估计值。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
§2.3 一元线性回归模型的统计检验回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。
尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。
那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。
主要包括拟合优度检验、变量的显著性检验及参数的区间估计。
一、拟合优度检验拟合优度检验,顾名思义,是检验模型对样本观测值的拟合程度。
检验的方法,是构造一个可以表征拟合程度的指标,在这里称为统计量,统计量是样本的函数。
从检验对象中计算出该统计量的数值,然后与某一标准进行比较,得出检验结论。
有人也许会问,采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度?问题在于,在一个特定的条件下做得最好的并不一定就是高质量的。
普通最小二乘法所保证的最好拟合,是同一个问题内部的比较,拟合优度检验结果所表示优劣是不同问题之间的比较。
例如图2.3.1和图2.3.2中的直线方程都是由散点表示的样本观测值的最小二乘估计结果,对于每个问题它们都满足残差的平方和最小,但是二者对样本观测值的拟合程度显然是不同的。
图2.3.1 图2.3.21、总离差平方和的分解已知由一组样本观测值),(i i Y X ,i =1,2…,n 得到如下样本回归直线ii X Y 10ˆˆˆββ+= 而Y 的第i 个观测值与样本均值的离差)(Y Y y i i -=可分解为两部分之和:i ii i i i i y e Y Y Y Y Y Y y ˆ)ˆ()ˆ(+=-+-=-= (2.3.1) 图2.3.3示出了这种分解,其中,)ˆ(ˆY Y y ii -=是样本回归直线理论值(回归拟合值)与观测值i Y 的平均值之差,可认为是由回归直线解释的部分;)ˆ(ii i Y Y e -=是实际观测值与回归拟合值之差,是回归直线不能解释的部分。
显然,如果i Y 落在样本回归线上,则Y 的第i 个观测值与样本均值的离差,全部来自样本回归拟合值与样本均值的离差,即完全可由i X X 图2.3.3对于所有样本点,则需考虑这些点与样本均值离差的平方和。
由于 ∑∑∑∑++=i i i i ie y e yyˆ2ˆ222 可以证明∑=0ˆii e y,所以有∑∑∑+=222ˆi i ie yy(2.3.2) 记TSS Y Y yi i=-=∑∑22)(,称为总离差平方和(Total Sum of Squares ),反映样本观测值总体离差的大小;ESS Y Y yii=-=∑∑22)ˆ(ˆ,称为回归平方和(Explained Sum of Squares ),反映由模型中解释变量所解释的那部分离差的大小;∑∑=-=RSS Y Y eii i22)ˆ(,称为残差平方和(Residual Sum of Squares ),反映样本观测值与估计值偏离的大小,也是模型中解释变量未解释的那部分离差的大小。
(2.3.2)表明Y 的观测值围绕其均值的总离差平方和可分解为两部分,一部分来自回归线,另一部分则来自随机势力。
因此,可用来自回归线的回归平方和占Y 的总离差的平方和的比例来判断样本回归线与样本观测值的拟合优度。
读者也许会问,既然RSS 反映样本观测值与估计值偏离的大小,可否直接用它作为拟合优度检验的统计量?这里提出了一个普遍的问题,即作为检验统计量的一般应该是相对量,而不能用绝对量。
因为用绝对量作为检验统计量,无法设置标准。
在这里,RSS ,即残差平方和,与样本容量关系很大,当n 比较小时,它的值也较小,但不能因此而判断模型的拟合优度就好。
2、可决系数2R 统计量 根据上述关系,可以用T S SR S ST S S E S S R -==12(2.3.3) 检验模型的拟合优度,称2R 为可决系数(coefficient of determination )。
显然,在总离差平方和中,回归平方和所占的比重越大,残差平方和所占的比重越小,则回归直线与样本点拟合得越好。
如果模型与样本观测值完全拟合,则有12=R 。
当然,模型与样本观测值完全拟合的情况是不可能发生的,2R 不可能等于1。
但毫无疑问的是该统计量越接近于1,模型的拟合优度越高。
在实际计算可决系数时,在1ˆβ已经估计出后,一个较为简单的计算公式为: ⎪⎪⎭⎫⎝⎛=∑∑22212ˆi i y x R β (2.3.4) 这里用到了样本回归函数的离差形式来计算回归平方和: ∑∑∑===221212ˆ)ˆ(ˆii ix x yESS ββ。
在例2.1.1的收入-消费支出例中,9766.045900207425000)777.0(ˆ222212=⨯==∑∑ii yx R β说明在线性回归模型中,家庭消费支出总变差(variation )中,由家庭可支配收入的变差解释的部分占97.66%,模型的拟合优度较高。
由(2.3.3)知,可决系数的取值范围为102≤≤R ,是一个非负的统计量。
它也是随着抽样的不同而不同,即是随抽样而变动的统计量。
为此,对可决系数的统计可靠性也应进行检验,这将在第3章中进行。
二、变量的显著性检验变量的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系是否显著成立作出推断,或者说考察所选择的解释变量是否对被解释变量有显著的线性影响。
从上面的拟合优度检验中可以看出,拟合优度高,则解释变量对被解释变量的解释程度就高,线性影响就强,可以推测模型线性关系成立;反之,就不成立。
但这只是一个模糊的推测,不能给出一个统计上的严格的结论。
因此,还必须进行变量的显著性检验。
变量的显著性检验所应用的方法是数理统计学中假设检验。
1、假设检验假设检验是统计推断的一个主要内容,它的基本任务是根据样本所提供的信息,对未知总体分布的某些方面的假设作出合理的判断。
假设检验的程序是,先根据实际问题的要求提出一个论断,称为统计假设,记为H 0;然后根据样本的有关信息,对H 0的真伪进行判断,作出拒绝H 0或接受H 0的决策。
假设检验的基本思想是概率性质的反证法。
为了检验原假设H 0是否正确,先假定这个假设是正确的,看由此能推出什么结果。
如果导致一个不合理的结果,则表明“假设H 0为正确”是错误的,即原假设H 0不正确,因此要拒绝原假设H 0。
如果没有导致一个不合理现象的出现,则不能认为原假设H 0不正确,因此不能拒绝拒绝原假设H 0。
概率性质的反证法的根据是小概率事件原理,该原理认为“小概率事件在一次试验中几乎是不可能发生的”。
在原假设H 0下构造一个事件,这个事件在“原假设H 0是正确”的条件下是一个小概率事件。
随机抽取一组容量为n 的样本观测值进行该事件的试验,如果该事件发生了,说明“原假设H 0是正确”是错误的,因为不应该出现的小概率事件出现了。
因而应该拒绝原假设H 0。
反之,如果该小概率事件没有出现,就没有理由拒绝原假设H 0,应该接受原假设H 0。
2、变量的显著性检验用以进行变量显著性检验的方法主要有三种:F 检验、t 检验、z 检验。
它们的区别在于构造的统计量不同。
应用最为普遍的t 检验,在目前使用的计量经济学软件包中,都有关于t 统计量的计算结果。
我们在此只介绍t 检验。
对于一元线性回归方程中的1ˆβ,已经知道它服从正态分布 ),(~ˆ2211∑ixN σββ进一步根据数理统计学中的定义,如果真实的2σ未知,而用它的无偏估计量)2(ˆ22-=∑n e i σ替代时,可构造如下统计量 1ˆ112211ˆˆˆβββσββS xt i-=-=∑ (2.3.5)则该统计量服从自由度为)2(-n 的t 分布。
因此,可用该统计量作为1β显著性检验的t 统计量。
如果变量X 是显著的,那么参数1β应该显著地不为0。
于是,在变量显著性检验中设计的原假设为:0:10=βH给定一个显著性水平α,查t 分布表(见附录),得到一个临界值)2(2-n t α。
因为t 分布是双尾分布,所以按照α2查t 分布表中的临界值。
于是 t >)2(-n t α(这里的t 已不同于(2.3.5) 式,其中01=β)为原假设H 0下的一个小概率事件。
在参数估计完成后,可以很容易计算t 的数值。
如果发生了t >)2(2-n t α,则在(1-α)的置信度下拒绝原假设H 0,即变量X 是显著的,通过变量显著性检验。
如果未发生t >)2(2-n t α,则在(1-α)置信度下接受原假设H 0,即变量X 是不显著的,未通过变量显著性检验。
对于一元线性回归方程中的0β,可构造如下t 统计量进行显著性检验: 0ˆ002220ˆˆˆβββσββS xn Xt ii-=-=∑∑ (2.3.6)同样地,该统计量服从自由度为)2(-n 的t 分布,检验的原假设一般仍为00=β。
在例2.1.1及例2.2.1的收入-消费支出例中,首先计算2σ的估计值134022107425000777.045900202ˆ2ˆ2221222=-⨯-=--=-=∑∑∑n x y n e i iiβσ于是0ˆβ和1ˆβ的标准差的估计值分别是: 0425.00018.07425000/13402ˆ22ˆ1====∑ixS σβ41.98742500010/5365000013402ˆ222ˆ0=⨯⨯==∑∑i i x n X S σβt 统计量的计算结果分别为:29.180425.0777.0ˆ1ˆ11===ββS t 048.141.9817.103ˆ0ˆ00-=-==ββS t 给定一个显著性水平α=0.05,查t 分布表中自由度为8(在这个例中8)2(=-n )、α=0.05的临界值,得到=)8(2αt 2.306。
可见1t >)2(2-n t α,说明解释变量家庭可支配收入在95%的置信度下显著,即通过了变量显著性检验。
但0t <)2(2-n t α,表明在95%的置信度下,无法拒绝截距项为零的假设。
三、参数的置信区间假设检验可以通过一次抽样的结果检验总体参数可能的假设值的范围(最常用的假设为总体参数值为零),但它并没有指出在一次抽样中样本参数值到底离总体参数的真值有多“近”。
要判断样本参数的估计值在多大程度上可以“近似”地替代总体参数的真值,往往需要通过构造一个以样本参数的估计值为中心的“区间”,来考察它以多大的可能性(概率)包含着真实的参数值。
这种方法就是参数检验的置信区间估计。
要判断估计的参数值iβˆ离真实的参数值i β有多“近”,可预先选择一个概率)10(<<αα,并求一个正数δ,使得随机区间(random interval ))ˆ,ˆ(δβδβ+-ii 包含参数i β的真值的概率为1-α。