计量笔记(三)线性模型的拟合优度检验
9.4一元线性回归方程检验:拟合优度

一元线性回归模型检验实例
解
X 表示广告费用,Y 表示牙膏销售量。
利用观察数据计算得到广告费用对牙膏销售量的样本回归方程为
计算得到 Yˆi 1.649 1.043Xi
n
R2 SSR SST
(Yˆi
i 1 n
(Yi
Y )2 Y )2
10.33 13.46
0.7673
i 1
2. 反映回归直线的拟合程度 3. 取值范围在 [ 0 , 1 ] 之间
4. R 2 1,说明回归方程拟合的越好;R 20,说明回归方程拟合的
越差
5. 判定系数等于相关系数的平方,即R 2=r 2
回归估计标准差
均方误差
n
n
(Yi Yˆi )2
ei2
MSE i1
i1
n2
n
Se MSE
(Yi Yˆi )2
i 1
3.13 0.3344
n2
30 2
一元线性回归模型检验实例
解 判定系数的实际意义是:在牙膏销售量的波动中,有76.73%可以
由牙膏销售量与广告费用之间的线性关系来解释,或者说,在牙膏销 售量的波动中,有76.73%是由广告费用所决定的。
i
i
i
Yˆ Y i
Y Y i
Y ....
.
X
X
图 因变量Y 的离差分解
判定系数
Yi Y (Yˆi Y ) (Yi Yˆi ) 两侧分别取平方求和
n
n
(Yi Y )2 ((Yˆi Y ) (Yi Yˆi ))2
i 1i ຫໍສະໝຸດ 1由于nn
(Yˆi Y )(Yi Yˆ) (ˆ0 ˆ1Xi Y )ei
拟合优度

注意英文缩写的含义
TSS:Total Square Sum / 总离差平方和
RSS:
Regression Square Sum / 回归平方和 Residual Square Sum / 残差平方和
ESS
Error Square Sum / 误差平方和(残差平方和)
Explain Square Sum / 解释平方和(回归平方和)
x u0 已知方差 时:选用统计量: U /n
2
x u0 未知方差 时,用s 代替 ,使用统计量: T s/n
2 2 2
回归系数假设检验及意义
回归系数的假设检验,往往是检验 H0 : i 0 H1 : i 0
检验的意义:该系数是否显著,该解释 变量是否对应变量有解释作用。
检验:取 =5%,查表得 t0.025 (17) 2.110 48.6
拒绝原假设,b1显著不为零
统计检验-方程显著性F检验
提出原假设:
备择假设:
b1 0 b1 0
F ESS /1 RSS /(n 2)
构造统计量
计算得 F 2367
检验:取 =5%,查表得 F0.05 (1,17) 4.45 2367
Step5:下结论:若小概率事件发生,拒绝原 假设H0;选择备择假设H1。否则,不拒绝原 假设。
假设检验的具体操作步骤
(以正态总体、已知方差,检验均值u为例)
1、提出零假设 H0: = 0 H1 : 0
x u0 2,由样本, 计算统计量U / n
3、确定显著水平,如=0.05,查表得 相应的临界值/2 4、判断和下结论:若|U| /2 ,拒绝H0; 若|U|< /2 , 接受H0;(判断区域图示) 5、依据结论,作出经济学上的解释。
第2章3一元线性回归模型的统计检验

Std. Error t-Statistic
98.40598 -1.048429 0.042485 18.28900
Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)
2、变量的显著性检验
我们先来构造用于变量显著性检验的检验统计量。 (补充)
对于一元线性回归方程,我们已经知道
ˆ1 ~ N(1,
2
)
xi2
另外,可以证明(参见周纪芗《回归分析》P14):
(1) (2)
ei2 ~ 2 n 2
2
ˆ1与 ei2独立
于是,可以构造如下统计量:
ˆ1 1
t
2
R2越接近1,说明实际观测点离样本回归线越 近,拟合优度越高。
在实际计算可决系数时,在 ˆ1 已经估计出后:
R2
yˆi2 yi2
ˆ12
xi2 yi2
在例2.2.1(P34-35)的可支配收入-消费支出例子中,
R2 ˆ12
xi2 yi2
(0.777)2 7425000 0.9766 4590020
• 换句话说,一个几乎不可能发生的小概率事 件(“检验统计量的样本值落入拒绝域”) 在一次试验中就发生了,这违背了小概率事 件原理,也就意味着导致了一个不合理的结 果。
显著性检验的步骤: (★)
(1)提出原假设H0和备择假设H1; (2)计算检验统计量的样本值; (3)确定临界值和拒绝域; (4)下结论。
Std. Error t-Statistic
Prob.1.3495Fra bibliotek8 0.217507
一元线性回归模型的统计检验

3. 怎样进行拟合优度检验 (1)总离差平方和的分解 已知有一组样本观测值( Xi ,Yi )(i 1, 2, , n),得到 如下样本回归直线:
Yˆi ˆ0 ˆ1Xi
Y的第i个观测值与样本均值的离差yi Yi Y 可分 解为两部分之和:
yi Yi Y Yi Yˆi Yˆi Y ei yˆi (1)
规则:p值越小,越能拒绝原假设H0.
三、回归系数的置信区间
对参数作出的点估计虽然是无偏估计,但一 次抽样它并不一定等于真实值,所以需要找到包 含真实参数的一个范围,并确定这个范围包含参 数真实值的可靠程度。
在变量的显著性检验中已经知道:
t ˆi i ~ t(n 2) i=0,1
Sˆi
给出置信度1,查自由度为(n 2)的t分布表,
假设检验的步骤: (1)提出原假设和备择假设; (2)根据已知条件选择检验统计量; (3)根据显著性水平确定拒绝域或临界值; (4)计算出统计量的样本值并作出判断。
(2)变量的显著性检验
对于最小二乘估计量ˆ1,已经知道它服从正态分布
ˆ1 ~ N(1,
2
xi2 )
由于真实的 2未知,在用它的无偏估计量ˆ 2
在上述收入——消费支出的例子中,如果给定
=0.01,查表得:
t 2 (n 2) t0.005 (8) 3.355
由于
Sˆ1 0.042
Sˆ0 98.41
于是,计算得到1、0的置信区间分别为:
(0.6345,0.9195)
(-433.32,226.98)
则
TSS RSS ESS
Y的观测值围绕其均值的总离差可分解为两部 分:一部分来自回归线(RSS),另一部分则来自随 机势力(ESS)。因此,我们可以用回归平方和RSS 占Y的总离差平方和TSS的比例来度量样本回归线 与样本观测值的拟合优度。
计量经济学中的各种检验【实用参考】

线性回归模型的各种检验
❖ 理论检验(经济意义检验) ❖ 统计检验 ❖ 计量经济学检验 ❖ 预测检验 ❖ 这一节主要讨论各种统计检验
计量经济学中的各种检验
回归模型的统计检验
❖ 统计检验指的是根据统计学的理论,确定回 归参数估计值的统计可靠性。
❖ 统计检验主要包括:回归方程估计标准误差 的评价、拟合优度检验、回归模型的总体显 著性检验和回归系数的显著性检验等。
❖ ESS即残差平方和,是总变差中不能够由回归直线 解释的部分,是由解释变量对被解释变量的影响之 外的因素所造成的,它度量实际值与拟合值之间的 差异程度。
计量经济学中的各种检验
总平方和、回归平方和、残差平方和
❖ 显然,回归平方和RSS越大,残差平方和ESS 越小,从而被解释变量总变差中能够由解释 变量解释的那部分变差就越大,模型对观测 数据的拟合程度就越高。
❖ 因此定义多重决定系数为解释变差占总变差 的比重,用来表述解释变量对被解释变量的 解释程度。
计量经济学中的各种检验
拟合优度的定义
❖ 拟合优度的定义:
RSS ESS TSSRSSESS1
TSS TSS
R2
RSS1ESS TSS TSS
❖ 含义:拟合优度越大,自变量对因变量的解释程度越高,自
变量引起的变动占总变动的百分比越高,观察点在回归直线
y i yˆ i
2
2
y i
yˆ i
yˆ y i
yˆ i
y
2
yi
yˆ i
2
yˆ i y
2
2
y yˆ
i
i
yˆ y i
ESS RSS i
y yˆ
i
线性模型(3)——多重线性回归模型

前面介绍了简单线性回归模型,接下来讲多重线性回归模型。
简单线性回归是针对一个因变量和一个自变量之间的线性回归关系,而多重线性回归是指一个因变量和多个自变量之间的线性回归关系。
相对于简单线性回归,多重线性回归更具有实际意义,因为在实际生活中,多因素相互作用非常普遍,同时对因变量造成影响的往往不止一个自变量。
多重线性回归主要解决的问题是1.估计自变量与因变量之间的线性关系(估计回归方程)2.确定哪些自变量对因变量有影响(影响因素分析)3.确定哪个自变量对因变量最影响最大,哪个最小(自变量重要性分析)4.使用自变量预测因变量,或在控制某些自变量的前提下,进行预测(预测分析)多重线性回归方程的基本模型为上式中:β0和b0为常数项βk和b k为偏回归系数,表示在其他自变量固定的情况下,某个自变量变化一个单位,相应Y的变换值μ和e为误差项,即Y变化中不能由现有自变量解释的部分===============================================偏回归系数偏回归系数是多重线性回归和简单线性回归最主要的区别,若要考察一个自变量对因变量的影响,就必须假设其他自变量保持不变。
偏回归系数的标准化:偏回归系数是有量纲的,由于各自变量的单位量纲不同,导致他们的偏回归系数无法直接比较,如果我们想综合评价各自变量对因变量Y的贡献大小,就需要对偏标准化系数进行标准化,标准化之后的偏回归系数没有单位,系数越大,说明该自变量对Y的影响幅度越大。
偏标准化系数的计算方法为:=====================================================多重线性回归的适用条件1.线性:因变量与各自变量之间具有线性关系,可通过散点图矩阵来加以判断2.无自相关性:任意两个xi、xj对应的随机误差μi,μj之间是独立不相关的3.随机误差服从均值为0,方差为一定值的正态分布4.在x一定条件下,残差的方差相等(为一常数),也就是方差齐性以上四点适用条件和简单线性回归类似,需要通过残差图进行判断,如果不满足,需要作出相应的改变,不满足线性条件需要修改模型或使用曲线拟合,不满足2、3点要进行变量转换,不满足第4点不要采用最小二乘法估计回归参数。
logistic回归拟合优度检验
logistic回归拟合优度检验Logistic回归是一种常用的统计模型,用于预测二分类问题。
在实际应用中,我们通常需要进行模型的拟合优度检验,以评估模型的拟合程度和准确性。
本文将介绍Logistic回归的拟合优度检验方法以及步骤。
一、Logistic回归简介Logistic回归是一种二分类问题的预测模型,它基于Logistic函数建立了自变量和因变量之间的关系。
Logistic函数可以将一个线性方程的结果映射到0和1之间的概率值,表示属于某一类别的概率。
Logistic回归模型的参数估计通常使用最大似然估计方法。
二、拟合优度检验的目的拟合优度检验的目的是评估Logistic回归模型对数据的拟合程度和准确性。
通过拟合优度检验,我们可以了解模型的好坏,判断模型是否适合用于预测。
三、拟合优度检验的方法1. 划分数据集为了进行拟合优度检验,我们需要将数据集划分为训练集和测试集。
通常,我们将大部分数据分配给训练集,而将一小部分数据作为测试集。
2. 拟合Logistic回归模型使用训练集数据,我们可以使用最大似然估计方法来拟合Logistic 回归模型。
由于Logistic回归是一个迭代算法,通常可以使用梯度下降法来优化模型参数。
3. 预测和评估在模型训练完成后,我们可以使用测试集的数据进行预测,并与实际结果进行比较。
通过计算准确率、精确率、召回率等指标,可以评估模型的性能和拟合优度。
四、拟合优度检验的指标在Logistic回归中,常用的评估指标有准确率、精确率、召回率、F1值等。
这些指标可以帮助我们了解模型的预测结果和性能表现。
1. 准确率(Accuracy)准确率是指分类器正确分类的样本数量占总样本数的比例。
计算公式如下:准确率 = (TP + TN) / (TP + TN + FP + FN)2. 精确率(Precision)精确率是指在所有预测为正例的样本中,真实为正例的样本数量占比。
计算公式如下:精确率 = TP / (TP + FP)3. 召回率(Recall)召回率是指在所有真实为正例的样本中,被正确预测为正例的样本数量占比。
计量经济学第三章第3节多元线性回归模型的显著性检验
ˆ b ˆ X b ˆY ˆ b Y t 0 1 t 2 t 1 ˆ b ˆ X b ˆ Y b ˆY ˆ b Y
t 0 1 t 2 t 1
3 t 2
其中t为当前期变量,t-k称为k期滞后变量。
1) 使用软件估计模型
将之前已经建立的Workfile文件打开 点击菜单中的“Quick”→“Estimate Equations”
2
2
2
*赤池信息准则和施瓦茨准则
• 为了比较所含解释变量个数不同的多元回归模型的 拟合优度,常用的标准还有: 赤池信息准则(Akaike information criterion, AIC) e e 2( k 1) AIC ln n n 施瓦茨准则(Schwarz criterion,SC)
Yi b0 b1 X1i b2 X 2i bk X ki ui
样本回归方程为:
ˆ b ˆ X b ˆ X b ˆ X ˆ b Y i 0 1 1i 2 2i k ki
我们将Yi与其平均值Y之间的离差分解如下 ˆ ) (Y ˆ Y ) Y Y (Y Y
B)调整后的拟合优度(样本决定系数)
RSS n k 1 n 1 RSS R 1 1 TSS n 1 n k 1 TSS n 1 2 2 即,R 1 ( 1 R ) n k 1
2
说明:
n 1 “ ”与“1-R 2? 一增一减,此消彼长 n k 1 从而保证R 2不会随解释变量个数的变化产生大的波动。
在对话框中输入:
y c x y(-1)
y c x y(-1) y(-2)
字母之间用空格分隔。 注:滞后变量不需重新形成新的时间序列,软件 自动运算实现,k期滞后变量,用y(-k)表示。
01-一元线性回归模型的拟合优度检验
67
一、离差分解
如图2-3所示
图2-3 被解释变量的离差
yi YiY
(Yi
Yˆ)(Yˆ
i
i
Y)
ei(YˆiY)
68
n
n
n
y
2 i
( Yˆ i Y )2
e
2 i
i1
i1
i1
(2-37)
4) 学会进行一元线性回归模型被解释变量的总体均 值和个别值预测; 5) 学会利用Eviews软件进行一元线性回归模型的参 数估计、检验和预测。
3
第三节 一元线性回归模型的拟合优度检验
拟合优度——指样本回归线对样本数据拟合的精确程度
拟合优度检验——检验样本回归线对样本数据拟合的精确程度
拟合优度检验方法——通过构造表征拟合优度的统计量,对模型的拟合 效果作出评价
记
n
yi2 = TSS ——总体平方和或总离差平方和
i1
反映样本观察值的总体离差的大小
n
(Yˆi Y)2 = ESS
i1
n
ei2 = RSS
i1
——回归平方和 反映模型中由解释变量解释的那部分离差的大小
——残差平方和 反映模型中解释变量未解释的那部分离差的大小
这样,式(2-37)可表示为
TSS ESS RSS
求关于家庭消费支出与可支配收入关系的一元线性回归模型的拟合优度。
或
模型的拟合效果较好
71
三、决定系数与相关系数的关系
n
n
(Xi X)(Yi Y)
rXY
i1
n
计量经济学重点内容
计量经济学第一章use 打开数据 describe 查看数据集情况 summary 描述统计tabstat +[stats] 计算描述性统计量(指定) table+[contents] 类别变量+连续变量列联表 table/ tabulate 类别变量频次表 histogram 直方图第二章 一元回归线性模型:基本思想第三章 第四章 一元、多元线性回归模型:假设检验随机扰动项、参数的方差、标准误计算统计检验1模型的拟合优度检验:R2判定系数(可决系数)调整的可决系数:范围在0和1之间,越接近1,说明模型具有较高的拟合优度2方程的显着性检验:F 统计量,prob (F )F >F(k-1,n-k),拒绝原假设H0,即显着。
F<F(k-1,n-k),则暂时不拒绝,不显着。
显着性概率为0,小于给定显着性水平(0.05),表明模型对总体拟合显着 3变量的显着性检验:T 统计量 (服从n-2,n-k ),p 值Β2一般为0,T>2.306为显着,T<2.306为不显着(5%水平) 线性回归模型的基本假设:假设1:模型具有线性性(针对模型)。
Y 是参数βi 的线性组合,不一定要求是变量X 的线性组合。
假设2 :解释变量X 与u 不相关(针对扰动项)。
数学表达:cov(Xi,ui)=0通常说法:X 具有外生性假设3:给定X ,扰动项的期望或均值为零(针对扰动项)。
数学表达:E(?i |Xi)=0,i=1,2, …,n 假设4:同方差假定(针对扰动项)。
数学表达:Var (ui) = ??2 = Var (Yi) i=1,2, …,n. 假设5:无自相关(针对扰动项)。
数学表达:Cov(?i, ?j ) = 0= Cov(Y i, Y j ) i≠j 假设6:回归模型设定是正确的(表面是针对模型,实质上是针对扰动项)sort 排序 order 排序 drop 去除记录 keep 保留记录 generate 生产新变量 replace 给变量赋新值 rename 给变量重命名2R假设7:扰动项符合正态分布(针对扰动项)数学表达:?i~N(0, ??2 ) Y i~N(β0+β1X, ??2 )第五章线性回归模型拓展(函数形式,变量测度单位)第六章虚拟变量回归有截距,m个类别(取值),仅引入m-1个虚拟变量,无截距可以m个第七章模型设定误差1包含无关变量:后果(F,T检验)参数估计是无偏且一致的估计,但不是有效的估计,检验仍然有效,但方差增大,接收错误假设的概率较高。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计量笔记(三)线性模型的拟合优度检验计量笔记专栏计量笔记(一) | OLS估计量推导计量笔记(二) | OLS估计量性质前言前面通过计量笔记(一) | OLS估计量推导和计量笔记(二) | OLS估计量性质我们已经推导出了参数的OLS估计量的矩阵表达式即β ^ = ( X τ X ) − 1 X τ Y \pmb{\hat\beta} = (X^{\tau}X)^{-1}X^{\tau}Y β^β^β^=(XτX)−1XτY,以及证明了在经典假设成立的条件下参数的OLS估计量的矩阵表达式是最佳线性无偏估计量,以及随机扰动项σ 2 \sigma^2 σ2的无偏估计σ ^ 2 \hat\sigma^2 σ^2接下来就是要对线性模型进行检验,所谓检验可以分为经济意义检验和统计准则检验,经济意义检验就是判断估计参数的正负号以及大小是否恰当,只有通过经济意义检验才能进行统计准则检验。
统计准则检验包括拟合优度检验( R 2 R^2 R2检验)、回归模型总体显著性检验( F F F检验)、回归系数的显著性检验( t t t检验)拟合优度检验拟合优度是指多元线性回归估计模型对观测值之间的拟合程度,直观上理解是观测值样本点离拟合回归直线上有多近。
高斯-马尔可夫定理:在线性模型的经典假设下,参数的最小二乘估计量是线性无偏估计量中方差最小的估计量(BLUE估计量)。
但是拟合程度有多好,需要构建拟合优度指标进行衡量首先需要对 Y Y Y进行总变差分解:∑ ( y i − y ‾ ) 2 = ∑ [ ( y i − y i ^ ) ( y i ^ − y ‾ ) ] 2 = ∑ e i 2 2 ∑ e i ( y i ^ − y ‾ ) ∑ ( y i ^ − y ‾ ) 2 \sum{(y_i-\overline{y})^2}= \sum{[(y_i-\hat{y_i}) (\hat{y_i}-\overline{y})]^2}= \sum{e_i^2} 2\sum{e_i(\hat{y_i}-\overline{y})} \sum{(\hat{y_i}-\overline{y})^2} ∑(yi−y)2=∑[(yi−yi^) (yi^−y)]2=∑ei2 2∑ei(yi^−y) ∑(yi^−y)2 下面要先插入OLS的正交性问题我们在计量笔记(一) | OLS估计量推导中得出X τ e = 0 X^{\tau}\pmb{e}=\pmb{0} Xτeee=000,由于Y ^ = X β ^ \hat{Y}=X\hat{\pmb{\beta}} Y^=Xβββ^,所以可以得出下式Y ^ τ e = ( X β ^ ) τ e = β ^ τ X τ e = β ^ τ ⋅0 = 0 \hat{Y}^{\tau}\pmb{e} =(X\hat{\pmb{\beta}})^{\tau}\pmb{e} =\hat{\pmb{\beta}}^{\tau}X^{\tau}\pmb{e}=\hat{\pmb{\beta}}^{\tau}\cdot\pmb{0} =0 Y^τeee=(Xβββ^)τeee=βββ^τXτeee=βββ^τ⋅000=0两个向量之间的积为0,说明两个向量之间是正交的,由此可见残差向量 e \pmb{e} eee与常数向量 1 \pmb{1} 111正交(残差之和为0)、与解释向量X τ X^{\tau} Xτ正交,与拟合值向量 Y ^ \hat{Y} Y^正交如何理解残差向量 e \pmb{e} eee与拟合值向量 Y ^ \hat{Y} Y^正交?由 Y = Y ^ e Y=\hat{Y} \pmb{e} Y=Y^ eee可知,拟合值 Y ^ \hat{Y} Y^为被解释变量 Y Y Y向解释变量超平面 X X X的投影,而残差 e \pmb{e} eee就是拟合值 Y ^ \hat{Y} Y^到解释变量超平面 X X X的点到平面的垂直距离(妙)言归正传,根据OLS的正交性,残差向量与拟合值向量和常数向量正交∑ e i ( y i ^ −y ‾) = ∑e i y i ^ −∑e i y ‾= 0 \sum{e_i(\hat{y_i}-\overline{y})}=\sum{e_i\hat{y_i}}-\sum{e_i\overline{y}}=0 ∑ei(yi^−y)=∑eiyi^−∑eiy=0由此,总变差方程式可以变成下式∑ ( y i − y ‾ ) 2 = ∑ ( y i − y i ^ ) 2 ∑ ( y i ^ − y ‾ ) 2 \sum{(y_i-\overline{y})^2}= \sum{(y_i-\hat{y_i})^2} \sum{(\hat{y_i}-\overline{y})^2} ∑(yi−y)2=∑(yi−yi^)2 ∑(yi^−y)2∑ ( y i − y ‾ ) 2 \sum{(y_i-\overline{y})^2} ∑(yi−y)2:总离差平方和,Total Sum of Squares, TSS,反映因变量观测值总的变异程度∑ ( y i − y i ^ ) 2 \sum{(y_i-\hat{y_i})^2} ∑(yi−yi^)2:残差平方和,Residual Sum of Squares, RSS,反映因变量回归估计值总的变异程度,它是因变量观测值总变差中由解释变量解释的那部分变差,也称解释变差∑ ( y i ^ − y ‾ ) 2 \sum{(\hat{y_i}-\overline{y})^2} ∑(yi^−y)2:回归平方和,Explained Sum of Squares, ESS,反映因变量观测值与估计值之间的总变差综上分析可知,总离差平方和由残差平方和和回归平方和两部分构成。
显然,在总离差平方和一定时,回归平方和越大,残差平方和就会越小,那么因变量回归估计值总的变异程度越能解释因变量观测值总的变异程度,即解释变差的解释能力越强,说明回归模型对观测值的拟合程度越高定义可决系数 R 2 R^2 R2来描述拟合程度R 2 = E S S T S S = 1 − R S S T S S R^2=\frac{ESS}{TSS}=1-\frac{RSS}{TSS} R2=TSSESS=1−TSSRSS定义可决系数 R 2 R^2 R2有一个显著的特点:如果观测值 Y i Y_i Yi不变,可决系数 R 2 R^2 R2将随着解释变量数目的增加而增大。
直观理解是随便加入一个解释变量(即使是对观测值 Y i Y_i Yi影响很小)也会增强解释变差的解释能力,即使这个变量与观测值Y i Y_i Yi无关(即系数为0),可决系数 R 2 R^2 R2起码可以保持不变那么是否意味着加入越多解释变量,对模型的拟合就越好呢?在计量笔记(二) | OLS估计量性质随机干扰项方差估计中,我们用σ ^ 2 \hat\sigma^2 σ^2对σ 2 \sigma^2 σ2进行估计,即σ ^ 2 = ∑ e i 2 n − k \hat{\sigma}^2= \frac{\sum{e_i^2}}{n-k} σ^2=n−k∑ei2有些解释变量对观测值 Y i Y_i Yi影响很小,增加这些变量对减少残差平方和没有多大作用,但是引入解释变量的数目越多, k k k越大,如果残差平方和减小不明显,那么σ 2\sigma^2 σ2估计值σ ^ 2 \hat\sigma^2 σ^2就会增大,而σ ^ 2 \hat\sigma^2 σ^2的增大对于推断参数β \pmb{\beta} βββ的置信区间以及对于预测区间的估计,都意味着精度的降低。
为了解决这个问题,引入修正可决系数 R ‾ 2 \overline{R}^2 R2 R ‾ 2 = 1 − R S S / ( n − k ) T S S / ( n − 1 ) \overline{R}^2=1-\frac{RSS/(n-k)}{TSS/(n-1)} R2=1−TSS/(n−1)RSS/(n−k) 如果增加一个对观测值 Y i Y_i Yi影响较大的变量,那么残差平方和减小比( n −k ) (n-k) (n−k)减小更显著,修正可决系数R ‾2 \overline{R}^2 R2就会增大;如果增加一个对观测值 Y i Y_i Yi影响较小的变量,那么残差平方和减小没有 ( n − k ) (n-k) (n−k)减小显著,修正可决系数 R ‾ 2 \overline{R}^2 R2就会减小,说明不应该引入这个解释变量修正可决系数 R ‾ 2 \overline{R}^2 R2与可决系数 R 2 R^2 R2有何联系R ‾ 2 = 1 − n − 1 n − k R S S T S S = 1 − n − 1 n − k ( 1 − R 2 ) = 1 − n − 1 n − k n − 1 n − k R 2 = n − 1 n − k R 2 − k − 1 n − k = ( n − k ) ( k − 1 ) n − k R 2 − k − 1 n − k = R 2 − k − 1 n −k ( 1 − R 2 ) \begin{aligned} \overline{R}^2 & = 1-\frac{n-1}{n-k}\frac{RSS}{TSS} \\ & = 1-\frac{n-1}{n-k}(1-R^2) \\ & = 1-\frac{n-1}{n-k} \frac{n-1}{n-k}R^2 \\ & = \frac{n-1}{n-k}R^2-\frac{k-1}{n-k} \\ & = \frac{(n-k) (k-1)}{n-k}R^2-\frac{k-1}{n-k} \\ & = R^2-\frac{k-1}{n-k}(1-R^2) \end{aligned} R2=1−n−kn−1TSSRSS=1−n −kn−1(1−R2)=1−n−kn−1 n−kn−1R2=n−kn−1R2−n−kk−1=n−k(n−k) (k−1)R2−n−kk−1=R2−n−kk−1(1−R2)由于 ( k − 1 ) (k-1) (k−1)、 ( n − k ) (n-k) (n−k)、 ( 1 − R 2 ) (1-R^2) (1−R2)均大于0,可知R ‾ 2 ≤ R 2 \overline{R}^2\le R^2 R2≤R2即修正可决系数R ‾2 \overline{R}^2 R2不大于可决系数R 2 R^2 R2修正可决系数 R ‾ 2 \overline{R}^2 R2有可能是负值修正可决系数 R ‾ 2 \overline{R}^2 R2有可能是一个负值,即 R ‾ 2 < 0 \overline{R}^2< 0 R2<0,这种情况下会有R 2 < k − 1 n − k ( 1 − R 2 ) ( 1 k − 1 n − k ) R 2 < k − 1 n −k n − 1 n − k R 2 < k − 1 n − k R 2 < k − 1 n − 1 R^2<\frac{k-1}{n-k}(1-R^2) \\ (1 \frac{k-1}{n-k})R^2<\frac{k-1}{n-k} \\ \frac{n-1}{n-k}R^2<\frac{k-1}{n-k} \\ R^2<\frac{k-1}{n-1} R2<n−kk−1(1−R2)(1 n−kk−1)R2<n−kk−1n−kn−1R2<n−kk−1R2<n−1k−1 所以,当 R 2 < k − 1 n − 1 R^2<\frac{k-1}{n-1} R2<n−1k−1时, R ‾ 2 < 0 \overline{R}^2< 0 R2<0,这种情况下使用修正可决系数R ‾ 2 \overline{R}^2 R2将失去意义,作R ‾ 2 = 0 \overline{R}^2= 0 R2=0处理。