一元线性回归模型的统计检验概述
第三章 一元线性回归模型

第三章 一元线性回归模型一、预备知识(一)相关概念对于一个双变量总体,若由基础理论,变量和变量之间存在因果),(i i x y x y 关系,或的变异可用来解释的变异。
为检验两变量间因果关系是否存在、x y 度量自变量对因变量影响的强弱与显著性以及利用解释变量去预测因变量x y x ,引入一元回归分析这一工具。
y 将给定条件下的均值i x i yi i i x x y E 10)|(ββ+=(3.1)定义为总体回归函数(PopulationRegressionFunction,PRF )。
定义为误差项(errorterm ),记为,即,这样)|(i i i x y E y -i μ)|(i i i i x y E y -=μ,或i i i i x y E y μ+=)|(i i i x y μββ++=10(3.2)(3.2)式称为总体回归模型或者随机总体回归函数。
其中,称为解释变量x (explanatory variable )或自变量(independent variable );称为被解释y 变量(explained variable )或因变量(dependent variable );误差项解释μ了因变量的变动中不能完全被自变量所解释的部分。
误差项的构成包括以下四个部分:(1)未纳入模型变量的影响(2)数据的测量误差(3)基础理论方程具有与回归方程不同的函数形式,比如自变量与因变量之间可能是非线性关系(4)纯随机和不可预料的事件。
在总体回归模型(3.2)中参数是未知的,是不可观察的,统计计10,ββi μ量分析的目标之一就是估计模型的未知参数。
给定一组随机样本,对(3.1)式进行估计,若的估计量分别记n i y x i i ,,2,1),,( =10,),|(ββi i x y E 为,则定义3.3式为样本回归函数^1^0^,,ββi y ()i i x y ^1^0^ββ+=n i ,,2,1 =(3.3)注意,样本回归函数随着样本的不同而不同,也就是说是随机变量,^1^0,ββ它们的随机性是由于的随机性(同一个可能对应不同的)与的变异共i y i x i y x 同引起的。
一元线性回归模型的统计检验

3. 怎样进行拟合优度检验 (1)总离差平方和的分解 已知有一组样本观测值( Xi ,Yi )(i 1, 2, , n),得到 如下样本回归直线:
Yˆi ˆ0 ˆ1Xi
Y的第i个观测值与样本均值的离差yi Yi Y 可分 解为两部分之和:
yi Yi Y Yi Yˆi Yˆi Y ei yˆi (1)
规则:p值越小,越能拒绝原假设H0.
三、回归系数的置信区间
对参数作出的点估计虽然是无偏估计,但一 次抽样它并不一定等于真实值,所以需要找到包 含真实参数的一个范围,并确定这个范围包含参 数真实值的可靠程度。
在变量的显著性检验中已经知道:
t ˆi i ~ t(n 2) i=0,1
Sˆi
给出置信度1,查自由度为(n 2)的t分布表,
假设检验的步骤: (1)提出原假设和备择假设; (2)根据已知条件选择检验统计量; (3)根据显著性水平确定拒绝域或临界值; (4)计算出统计量的样本值并作出判断。
(2)变量的显著性检验
对于最小二乘估计量ˆ1,已经知道它服从正态分布
ˆ1 ~ N(1,
2
xi2 )
由于真实的 2未知,在用它的无偏估计量ˆ 2
在上述收入——消费支出的例子中,如果给定
=0.01,查表得:
t 2 (n 2) t0.005 (8) 3.355
由于
Sˆ1 0.042
Sˆ0 98.41
于是,计算得到1、0的置信区间分别为:
(0.6345,0.9195)
(-433.32,226.98)
则
TSS RSS ESS
Y的观测值围绕其均值的总离差可分解为两部 分:一部分来自回归线(RSS),另一部分则来自随 机势力(ESS)。因此,我们可以用回归平方和RSS 占Y的总离差平方和TSS的比例来度量样本回归线 与样本观测值的拟合优度。
第三节 一元线性回归模型的统计检验

ˆ ˆ ˆ y i = Yi − Y = (Yi − Yi ) + (Yi − Y ) = ei + y i
如果Yi=Ŷi 即实际观测值落在样本回归“线”上,则拟合最好 拟合最好。 拟合最好 可认为,“离差”全部来自回归线,而与“残差”无关。 “离差”
类似, 对多元线性回归方程 : ˆ ˆ ˆ yi = β 0 + β1 ⋅ x1i + L β k ⋅ xki ˆ
F检验与R检验结果一致(P44图2-7):
n − k −1 TSS = F= RSS RSS k (n − k − 1) TSS R n − k − 1 R2 = ⋅ k 1 − R2 kF 2 R = (n − k − 1) + kF
因此,实际应用可选择其一。
ESS
ESS
多元线性回归模型的显著性检验(F检验 多元线性回归模型的显著性检验 检验 模型的显著性检验 检验)
ˆ ) 2 + ∑ (Y − Y ) 2 = RSS + ESS ˆ 所以有: TSS = ∑ (Yi − Yi i
注意: 注意:一个有趣的现象
(Y − Y ) = (Y − Yˆ ) + (Yˆ − Y ) (Y − Y ) ≠ (Y − Yˆ ) + (Yˆ − Y ) ∑ (Y − Y ) = ∑ (Y − Yˆ ) + ∑ (Yˆ − Y )
总离差平方和分解公式 总离差平方和分解公式: TSS=ESS+RSS 公式 其中: 其中
则
TSS = Σ(Yi − Y ) 2 ˆ ˆ = Σ((Yi − Yi ) + (Yi − Y )) 2 ˆ ˆ ˆ ˆ = Σ(Yi − Yi ) 2 + 2Σ(Yi − Yi )(Yi − Y ) + Σ(Yi − Y ) 2
一元线性回归分析

一元线性回归分析摘要:一元线性回归分析是一种常用的预测和建模技术,广泛应用于各个领域,如经济学、统计学、金融学等。
本文将详细介绍一元线性回归分析的基本概念、模型建立、参数估计和模型检验等方面内容,并通过一个具体的案例来说明如何应用一元线性回归分析进行数据分析和预测。
1. 引言1.1 背景一元线性回归分析是通过建立一个线性模型,来描述自变量和因变量之间的关系。
通过分析模型的拟合程度和参数估计值,我们可以了解自变量对因变量的影响,并进行预测和决策。
1.2 目的本文的目的是介绍一元线性回归分析的基本原理、建模过程和应用方法,帮助读者了解和应用这一常用的数据分析技术。
2. 一元线性回归模型2.1 模型表达式一元线性回归模型的基本形式为:Y = β0 + β1X + ε其中,Y是因变量,X是自变量,β0和β1是回归系数,ε是误差项。
2.2 模型假设一元线性回归模型的基本假设包括:- 线性关系假设:自变量X与因变量Y之间存在线性关系。
- 独立性假设:每个观测值之间相互独立。
- 正态性假设:误差项ε服从正态分布。
- 同方差性假设:每个自变量取值下的误差项具有相同的方差。
3. 一元线性回归分析步骤3.1 数据收集和整理在进行一元线性回归分析之前,需要收集相关的自变量和因变量数据,并对数据进行整理和清洗,以保证数据的准确性和可用性。
3.2 模型建立通过将数据代入一元线性回归模型的表达式,可以得到回归方程的具体形式。
根据实际需求和数据特点,选择适当的变量和函数形式,建立最优的回归模型。
3.3 参数估计利用最小二乘法或最大似然法等统计方法,估计回归模型中的参数。
通过最小化观测值与回归模型预测值之间的差异,找到最优的参数估计值。
3.4 模型检验通过对回归模型的拟合程度进行检验,评估模型的准确性和可靠性。
常用的检验方法包括:残差分析、显著性检验、回归系数的显著性检验等。
4. 一元线性回归分析实例为了更好地理解一元线性回归分析的应用,我们以房价和房屋面积之间的关系为例进行分析。
经典单方程计量经济学模型:一元线性回归模型

设由获得的样本观测值 (yi , xi ) ( i 1,2,, n) 去估计计量经济模型中的未知参数,
结果为
Yˆi ˆ0 ˆ1Xi 其能够很好的拟合样本数据。 Yˆi 为别 解释变量的估计值,它是由参数估计 量和解释变量的观测之计算得到的。 那么,被解释变量的估计值与观测值 应该在总体上最为接近。
ˆ i
~
N
(
i
,
c2
ii
)
(ˆ ) /
i
i
c2 ii
~
N (0,1)
而
ˆ 2 (n k 1) / 2 ee / 2 ~ 2 (n k 1)
则
(ˆ ) / c ee /(n k 1) ~ t(n k 1)
i
i
ii
可以用上述统计量检验解释变量系数是否为0,
原假设 H : 0 ,计算统计量
2
exp{
1
2 2
( yi
ˆ0
ˆ1xi )2}
i
1,2,n
联合密度(似然函数)
L(ˆ0, ˆ1, )
f ( y1,,
yn )
1
n
(2
)n
/
2
exp{
1
2
2
( yi
ˆ0
ˆ1xi )2}
或对数似然函数
L* ln(L) n ln(
2
)
1
2
2
( yi
ˆ0
ˆ1xi )2
极大化上式
ˆ0
ˆ1
1430 1650 1870 2112
1485 1716 1947 2200
2002
共计
2420 4950 11495 16445 19305 23870 25025 21450 21285 15510
一元线性回归模型的参数检验

模型拟合的质量检验
1
残差分析
通过分析模型的残差,可以评估模型对数据的拟合程度。较小的残差表示模型拟合较好。
2
参数的显著性检验
通过t检验或F检验,判断模型参数是否显著。显著的参数表示自变量对因变量的影响是真实 存在的解释程度。取值范围为0到1,越接近1表示模型拟合的越 好。
残差分析
残差分析是评估一元线性回归模型拟合质量的重要方法。通过分析残差的分 布、模式和异常值,可以判断模型是否可靠。
参数的显著性检验
在一元线性回归模型中,参数的显著性检验是判断自变量对因变量的影响是否显著的方法。常用的方法有t检 验和F检验。
t检验的基本原理
t检验是一种用于检验样本均值与总体均值之间差异的统计方法。在一元线性 回归模型中,用于检验参数估计值与真实值之间的差异。
一元线性回归模型的参数 检验
在统计学中,一元线性回归模型是一种用于描述两个变量之间线性关系的模 型。本节将介绍一元线性回归模型的参数检验方法。
什么是一元线性回归模型?
一元线性回归模型用于分析一个自变量与一个因变量之间的线性关系。它通 过拟合一个直线来描述这种关系,并根据模型参数进行推断和解释。
数据预处理
在进行一元线性回归之前,需要对数据进行预处理,包括数据清洗、缺失值 处理和异常值检测。通过这些步骤,可以确保模型建立在可靠的数据基础上。
拟合一元线性回归模型
通过最小化残差平方和来拟合一元线性回归模型。这可以通过最小二乘法来 实现,求解模型参数使得预测值与观测值的差异最小。
模型参数的估计
一元线性回归模型的参数估计使用普通最小二乘法。通过计算样本数据的协 方差和方差,可以得到模型参数的估计值。
一元线性回归模型的统计检验

预测分析
学习如何对新数据进行预测,进行误差分析,并利用置信区间来评估预测的 准确性。
模型选择
学习方差分析、逐步回归和信息准则等方法,探讨如何选择最佳的一元线性 回归模型。
实例分析
通过应用案例深入理解一元线性回归模型的统计检验,展示实际数据的应用和模型的术论文和研究报告等参考文献,帮助学习者进一步深入研 究一元线性回归模型的统计检验。
参数估计
掌握OLS估计法,解释回归系数的含义,了解拟合优度,并且能够根据参数估计法对一元线性回归模型 进行参数的估计。
模型检验
进行残差分析,检验模型是否符合要求,学习诊断性检验,发现模型中的问题并作出相应的调整。
显著性检验
学习t检验、p值和显著性水平的概念,了解在一元线性回归模型中如何进行 显著性检验。
一元线性回归模型的统计 检验
了解一元线性回归模型的统计检验。包括定义与介绍,相关理论,假设检验, 样本数据,参数估计,模型检验,显著性检验,预测分析,模型选择,实例 分析。
相关理论
了解线性回归方程、残差、误差、相关系数等相关理论,掌握它们在一元线性回归模型中的含义和应用。
样本数据
学习数据的收集、处理和描述,实现对一元线性回归模型的数据样本分析, 为后续的参数估计和模型检验打下基础。
Q& A
解答学生对于一元线性回归模型的统计检验相关问题,确保学生对所学内容的充分理解。
总结
对本次PPT的主要内容进行概括,总结重点和难点,帮助学习者回顾和巩固所 学知识。
答疑环节
解答学生在本次PPT学习中的遗留问题和疑惑,确保学生能够全面理解一元线 性回归模型的统计检验。
§2.3 一元线性回归模型的统计检验

( β$i t α × s β$ , β$i + t α × s β$ )
2 i 2 i
在上述收入-消费支出例中,如果给定α =0.01, 在上述收入-消费支出例中,如果给定α =0.01, 收入 例中 查表得: 查表得:
t α (n 2) = t0.005 (8) = 3.355
2
1
由于
S β = 0.042
βi βi s β
i
~ t ( n 2)
P(tα < t < tα ) = 1α
2 2
即
P(t α <
2
β$i βi
s β$
i
< tα ) = 1 α
2
$ tα ×s <β <β +tα ×s ) =1α $ P(β $ $ i i i β β
2 i 2 i
(1- 的置信度下, (1-α)的置信度下, βi的置信区间是
可构造如下t 对于一元线性回归方程中的β0,可构造如下 统计量进行显著性检验: 统计量进行显著性检验:
t=
β0 β0 2 ∑Xi2 n∑xi2 σ
=
β0 Sβ
0
~ t(n 2)
在上述收入-消费支出例中,首先计算σ 在上述收入-消费支出例中,首先计算σ2的估计值 收入 例中
σ2 = ei2 ∑ n 2 = (yi y)2 β12 ∑(xi x)2 ∑ n 2 =13402
§2.3 一元线性回归模型的统 计检验
一、拟合优度检验 二、变量的显著性检验 三、参数的置信区间
一、拟合优度检验
含义: 含义:对样本回归直线与样本观测值之 间拟合程度的检验。 间拟合程度的检验。 指标:判定系数(可决系数) 指标:判定系数(可决系数)R2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
拟合优度检验,顾名思义,是检验模型对样本观测值的拟合程度。检验的方法,是构造一个可以表征拟合程度的指标,在这里称为统计量,统计量是样本的函数。从检验对象中计算出该统计量的数值,然后与某一标准进行比较,得出检验结论。有人也许会问,采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度?问题在于,在一个特定的条件下做得最好的并不一定就是高质量的。普通最小二乘法所保证的最好拟合,是同一个问题部的比较,拟合优度检验结果所表示优劣是不同问题之间的比较。例如图2.3.1和图2.3.2中的直线方程都是由散点表示的样本观测值的最小二乘估计结果,对于每个问题它们都满足残差的平方和最小,但是二者对样本观测值的拟合程度显然是不同的。
假设检验的程序是,先根据实际问题的要求提出一个论断,称为统计假设,记为 ;然后根据样本的有关信息,对 的真伪进行判断,作出拒绝 或接受 的决策。
假设检验的基本思想是概率性质的反证法。为了检验原假设 是否正确,先假定这个假设是正确的,看由此能推出什么结果。如果导致一个不合理的结果,则表明“假设 为正确”是错误的,即原假设 不正确,因此要拒绝原假设 。如果没有导致一个不合理现象的出现,则不能认为原假设 不正确,因此不能拒绝拒绝原假设 。
2、可决系数 统计量
根据上述关系,可以用
(2.3.3)
检验模型的拟合优度,称 为可决系数(coefficient of determination)。显然,在总离差平方和中,回归平方和所占的比重越大,残差平方和所占的比重越小,则回归直线与样本点拟合得越好。如果模型与样本观测值完全拟合,则有 。当然,模型与样本观测值完全拟合的情况是不可能发生的, 不可能等于1。但毫无疑问的是该统计量越接近于1,模型的拟合优度越高。
从上面的拟合优度检验中可以看出,拟合优度高,则解释变量对被解释变量的解释程度就高,线性影响就强,可以推测模型线性关系成立;反之,就不成立。但这只是一个模糊的推测,不能给出一个统计上的严格的结论。因此,还必须进行变量的显著性检验。变量的显著性检验所应用的方法是数理统计学中假设检验。
1、假设检验
假设检验是统计推断的一个主要容,它的基本任务是根据样本所提供的信息,对未知总体分布的某些方面的假设作出合理的判断。
§2.3一元线性回归模型的统计检验
回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。主要包括拟合优度检验、变量的显著性检验及参数的区间估计。
Y
=来自残差
SRF
=总离差
=来自回归
X
图2.3.3
对于所有样本点,则需考虑这些点与样本均值离差的平方和。由于
可以证明 ,所以有
(2.3.2)
记 ,称为总离差平方和(Total Sum of Squares),反映样本观测值总体离差的大小; ,称为回归平方和(Explained Sumof Squares),反映由模型中解释变量所解释的那部分离差的大小; ,称为残差平方和(Residual Sum of Squares),反映样本观测值与估计值偏离的大小,也是模型中解释变量未解释的那部分离差的大小。
由(2.3.3)知,可决系数的取值围为 ,是一个非负的统计量。它也是随着抽样的不同而不同,即是随抽样而变动的统计量。为此,对可决系数的统计可靠性也应进行检验,这将在第3章中进行。
二、变量的显著性检验
变量的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系是否显著成立作出推断,或者说考察所选择的解释变量是否对被解释变量有显著的线性影响。
在实际计算可决系数时,在 已经估计出后,一个较为简单的计算公式为:
(2.3.4)
这里用到了样本回归函数的离差形式来计算回归平方和:
。
在例2.1.1的收入-消费支出例中,
说明在线性回归模型中,家庭消费支出总变差(variation)中,由家庭可支配收入的变差解释的部分占97.66%,模型的拟合优度较高。
..ห้องสมุดไป่ตู้
....
...
..
图2.3.1图2.3.2
1、总离差平方和的分解
已知由一组样本观测值 , =1,2…,n得到如下样本回归直线
而 的第 个观测值与样本均值的离差 可分解为两部分之和:
(2.3.1)
图2.3.3示出了这种分解,其中, 是样本回归直线理论值(回归拟合值)与观测值 的平均值之差,可认为是由回归直线解释的部分; 是实际观测值与回归拟合值之差,是回归直线不能解释的部分。显然,如果 落在样本回归线上,则 的第 个观测值与样本均值的离差,全部来自样本回归拟合值与样本均值的离差,即完全可由样本回归线解释。表明在该点处实现完全拟合。
2、变量的显著性检验
用以进行变量显著性检验的方法主要有三种:F检验、t检验、z检验。它们的区别在于构造的统计量不同。应用最为普遍的t检验,在目前使用的计量经济学软件包中,都有关于t统计量的计算结果。我们在此只介绍t检验。
(2.3.2)表明 的观测值围绕其均值的总离差平方和可分解为两部分,一部分来自回归线,另一部分则来自随机势力。因此,可用来自回归线的回归平方和占Y的总离差的平方和的比例来判断样本回归线与样本观测值的拟合优度。
读者也许会问,既然 反映样本观测值与估计值偏离的大小,可否直接用它作为拟合优度检验的统计量?这里提出了一个普遍的问题,即作为检验统计量的一般应该是相对量,而不能用绝对量。因为用绝对量作为检验统计量,无法设置标准。在这里, ,即残差平方和,与样本容量关系很大,当n比较小时,它的值也较小,但不能因此而判断模型的拟合优度就好。
概率性质的反证法的根据是小概率事件原理,该原理认为“小概率事件在一次试验中几乎是不可能发生的”。在原假设 下构造一个事件,这个事件在“原假设 是正确”的条件下是一个小概率事件。随机抽取一组容量为n的样本观测值进行该事件的试验,如果该事件发生了,说明“原假设 是正确”是错误的,因为不应该出现的小概率事件出现了。因而应该拒绝原假设 。反之,如果该小概率事件没有出现,就没有理由拒绝原假设 ,应该接受原假设 。