多元线性回归模型的统计检验方法

合集下载

多元线性回归模型的检验

第三节多元线性回归模型的检验本节基本内容:●多元回归的拟合优度检验●回归方程的显著性检验（F检验）●各回归系数的显著性检验（t检验）一、多元回归的拟合优度检验多重可决系数R 2：22222ˆ(-)ESS TSS-RSS 1-TSS(-)TSS i i i iY Y e R Y Y y====∑∑∑∑在实际应用中，随着模型中解释变量的增多，R 2往往增大。

这就给人一个错觉：要使得模型拟合得好，只要增加解释变量即可。

但是，由增加解释变量引起的R 2的增大与拟合好坏无关，所以R 2需调整。

修正的可决系数()222222(-)-1-11111(-1)--i i iie n k en n RR yn n kyn k=-=-=--∑∑∑∑修正的可决系数为特点：⏹⏹k 越大，越小。

综合了精度和变量数两个因素，兼顾了精确性和简洁性。

⏹R 2必定非负，但可能为负值。

2R 2R 2R 22R R≤信息准则为了比较解释变量个数不同的多元回归模型的拟合优度，常用的标准还有:赤池信息准则（Akaike information criterion, AIC ）施瓦茨准则（Schwarz criterion ，SC ）上述信息准则均要求仅当所增加的解释变量能够减少AIC 值、SC 值或HQC 值时才在原模型中增加该解释变量。

()()n ln n k n L SC 12++-=汉南-奎因准则（Hannan-Quinn criterion ，HQC ）()()()n ln ln nk n L HQC 122++-=()n k n L AIC 122++-=()⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛++-=∑n e ln ln n L i2212π其中对数似然函数二、回归方程显著性检验（F检验）基本思想在多元回归中有多个解释变量，需要说明所有解释变量联合起来对被解释变量影响的总显著性，或整个方程总的联合显著性。

对方程总显著性检验需要在方差分析的基础上进行F检验。

《医学统计学》之多元(重)线性回归

多元(重)线性回归模型的假设
1 线性关系
假设自变量与因变量之间存在线性关系，即因变量可以用自变量的线性组合来表示。
2 独立性
假设误差项之间相互独立，即每个观测值的误差项不受其他观测值的影响。
3 常数方差
假设误差项具有常数方差，即各个观测值的误差方差相同。
多元(重)线性回归模型的估计方法
最小二乘法
多元(重)线性回归模型的模型选择方法
前向选择法
从不包含自变量的空模型开始，逐步添加自变量，选择最佳的组合。
后向消除法
从包含所有自变量的全模型开始，逐步删除自变量，选择最简单且最有效的模型。
逐步回归法
结合前向选择法和后向消除法，逐步调整自变量，找到最优的模型。
多元(重)线性回归模型的实际应用
医学研究
用于分析多个影响因素对疾病发生、病程进展和治疗效果的影响。
市场分析
用于预测市场需求和销售量，并确定最佳的市场推广策略。
财务预测
社会科学
用于预测企业的财务状况，并制定相应的经营决策。
用于研究社会现象和群体行为，解释和预测社会现象的变化。
通过方差膨胀因子等指标，判断自变量之间是否存在高度相关性，以避免估计结果的不准确性。
多元(重)线性回归模型的模型检验
1
残差分析
通过观察残差的分布和模式，检验回归模型是否符合基本假设。
2
拟合优度检验
通过比较拟合优度指标（如决定系数R²）和假设分布，评估回归模型的拟合程度。
3
异常值检验
通过检测异常值对回归分析结果的影响，判断数据中是否存在异常观测值。
《医学统计学》之多元 (重)线性回归
在医学统计学中，多元(重)线性回归是一种强大的数据分析方法，可用于探索和建立多个自变量与因变量之间的关系。

多元线性回归模型检验

多元线性回归模型检验引言多元线性回归是一种常用的统计分析方法，用于研究两个或多个自变量对目标变量的影响。

在应用多元线性回归前，我们需要确保所建立的模型符合一定的假设，并进行模型检验，以保证结果的可靠性和准确性。

本文将介绍多元线性回归模型的几个常见检验方法，并通过实例进行说明。

一、多元线性回归模型多元线性回归模型的一般形式可以表示为：$$Y = \\beta_0 + \\beta_1X_1 + \\beta_2X_2 + \\ldots + \\beta_pX_p +\\varepsilon$$其中，Y为目标变量，$X_1,X_2,\\ldots,X_p$为自变量，$\\beta_0,\\beta_1,\\beta_2,\\ldots,\\beta_p$为模型的回归系数，$\\varepsilon$为误差项。

多元线性回归模型的目标是通过调整回归系数，使得模型预测值和实际观测值之间的误差最小化。

二、多元线性回归模型检验在进行多元线性回归分析时，我们需要对所建立的模型进行检验，以验证假设是否成立。

常用的多元线性回归模型检验方法包括：1. 假设检验多元线性回归模型的假设包括：线性关系假设、误差项独立同分布假设、误差项方差齐性假设和误差项正态分布假设。

我们可以通过假设检验来验证这些假设的成立情况。

•线性关系假设检验：通过F检验或t检验对回归系数的显著性进行检验，以确定自变量与目标变量之间是否存在线性关系。

•误差项独立同分布假设检验：通过Durbin-Watson检验、Ljung-Box 检验等统计检验，判断误差项是否具有自相关性。

•误差项方差齐性假设检验：通过Cochrane-Orcutt检验、White检验等统计检验，判断误差项的方差是否齐性。

•误差项正态分布假设检验：通过残差的正态概率图和Shapiro-Wilk 检验等方法，检验误差项是否满足正态分布假设。

2. 多重共线性检验多重共线性是指在多元线性回归模型中，自变量之间存在高度相关性的情况。

多元线性回归模型的各种检验方法

对多元线性回归模型的各种检验方法对于形如u X X X Y k k +++++=ββββΛΛ22110 （1）的回归模型，我们可能需要对其实施如下的检验中的一种或几种检验：一、对单个总体参数的假设检验：t 检验在这种检验中，我们需要对模型中的某个（总体）参数是否满足虚拟假设0H ：j j a =β，做出具有统计意义（即带有一定的置信度）的检验，其中j a 为某个给定的已知数。

特别是，当j a =0时，称为参数的（狭义意义上的）显著性检验。

如果拒绝0H ，说明解释变量j X 对被解释变量Y 具有显著的线性影响，估计值j βˆ才敢使用；反之，说明解释变量j X 对被解释变量Y 不具有显著的线性影响，估计值j βˆ对我们就没有意义。

具体检验方法如下：（1）给定虚拟假设 0H ：j j a =β；（2）计算统计量 )ˆ(ˆ)ˆ()(ˆjj j j j j Se a Se E t βββββ-=-= 的数值； 11ˆ)ˆ(++-==j j jj jj j C C Se 1T X)(X ，其中σβ（3）在给定的显著水平α下（α不能大于1.0即10%，也即我们不能在置信度小于90%以下的前提下做结论），查出双尾t （1--k n ）分布的临界值2/αt ；（4）如果出现 2/αt t >的情况，检验结论为拒绝0H ；反之，无法拒绝0H 。

t 检验方法的关键是统计量 )ˆ(ˆj jj Se t βββ-=必须服从已知的t 分布函数。

什么情况或条件下才会这样呢？这需要我们建立的模型满足如下的条件（或假定）：（1）随机抽样性。

我们有一个含n 次观测的随机样(){}n i Y X X X i ik i i ,,2,1:,,,,21ΛΛ=。

这保证了误差u 自身的随机性，即无自相关性，0))())(((=--j j i i u E u u E u Cov 。

（2）条件期望值为0。

给定解释变量的任何值，误差u 的期望值为零。

多元线性回归模型的各种检验方法

多元线性回归模型的各种检验方法多元线性回归模型是常用于数据分析和预测的方法，它可以用于研究多个自变量与因变量之间的关系。

然而，仅仅使用多元线性回归模型进行参数估计是不够的，我们还需要对模型进行各种检验以确保模型的可靠性和有效性。

下面将介绍一些常用的多元线性回归模型的检验方法。

首先是模型的整体显著性检验。

在多元线性回归模型中，我们希望知道所构建的模型是否能够显著解释因变量的变异。

常见的整体显著性检验方法有F检验和显著性检查表。

F检验是通过比较回归模型的回归平方和和残差平方和的比值来对模型的整体显著性进行检验。

若F值大于一定的临界值，则可以拒绝原假设，即模型具有整体显著性。

通常，临界值是根据置信水平和自由度来确定的。

显著性检查表是一种常用的汇总表格，它可以提供关于回归模型的显著性水平、标准误差、置信区间和显著性因素的信息。

通过查找显著性检查表，我们可以评估模型的显著性。

其次是模型的参数估计检验。

在多元线性回归模型中，我们希望知道每个自变量对因变量的影响是否显著。

通常使用t检验来对模型的参数估计进行检验。

t检验是通过对模型的回归系数进行检验来评估自变量的影响是否显著。

与F检验类似，t检验也是基于假设检验原理，通过比较t值和临界值来决定是否拒绝原假设。

通常，临界值可以通过t分布表或计算机软件来获取。

另外，我们还可以使用相关系数来评估模型的拟合程度。

相关系数可以用来衡量自变量与因变量之间的线性关系强度，常见的相关系数包括Pearson相关系数和Spearman相关系数。

Pearson相关系数适用于自变量和因变量都是连续变量的情况，它衡量的是两个变量之间的线性关系强度。

取值范围为-1到1，绝对值越接近1表示关系越强。

Spearman相关系数适用于自变量和因变量至少有一个是有序变量或者都是有序变量的情况，它衡量的是两个变量之间的单调关系强度。

取值范围也是-1到1，绝对值越接近1表示关系越强。

最后，我们还可以使用残差分析来评估模型的拟合程度和误差分布。

多元线性回归模型的各种检验方法

对多元线性回归模型的各种检验方法对于形如u X X X Y k k +++++=ββββ 22110 （1）的回归模型，我们可能需要对其实施如下的检验中的一种或几种检验：一、对单个总体参数的假设检验：t 检验在这种检验中，我们需要对模型中的某个（总体）参数是否满足虚拟假设0H ：j j a =β，做出具有统计意义（即带有一定的置信度）的检验，其中j a 为某个给定的已知数。

特别是，当j a =0时，称为参数的（狭义意义上的）显著性检验。

具体检验方法如下：（1）给定虚拟假设 0H ：j j a =β；（2）计算统计量 )ˆ(ˆ)ˆ()(ˆjj j j j j Se a Se E t βββββ-=-= 的数值； 11ˆ)ˆ(++-==j j jj jj j C C Se 1T X)(X ，其中σβ（3）在给定的显著水平α下（α不能大于1.0即 10%，也即我们不能在置信度小于90%以下的前提下做结论），查出双尾t （1--k n ）分布的临界值2/αt ；（4）如果出现 2/αt t >的情况，检验结论为拒绝0H ；反之，无法拒绝0H 。

t 检验方法的关键是统计量 )ˆ(ˆj jj Se t βββ-=必须服从已知的t 分布函数。

什么情况或条件下才会这样呢？这需要我们建立的模型满足如下的条件（或假定）：（1）随机抽样性。

我们有一个含n 次观测的随机样(){}n i Y X X X i ik i i ,,2,1:,,,,21 =。

这保证了误差u 自身的随机性，即无自相关性，0))())(((=--j j i i u E u u E u Cov 。

（2）条件期望值为0。

给定解释变量的任何值，误差u 的期望值为零。

3.3多元线性回归模型的检验

原假设 H0 : 2 = 3 = = k = 0
即所有解释变量联合起来对被解释变量的影响不显著
备择假设 H1 : j ( j = 1,2,k) 不全为0。
回归方程的显著性检验（F-检验）
建立F统计量:
F = ES S (k −1) = RSS (n − k)
(Yˆi (Yi
− Y )2 − Yˆi )2
（j=1,2,……k）
与备择假设： H1 : j 0
构造统计量t为：
t*
=
ˆ j − j
^
SE
(
ˆ
j
)
=
ˆ
ˆ j
c jj
ቤተ መጻሕፍቲ ባይዱ
~ t(n − k)
给定显著性水平α，查t分布表，得临界值 t 2 (n − k)
回归参数的显著性检验（t-检验）
如t的绝对值大于t 临界值，就拒绝H0 而不拒绝H1
即认为解释变量 Xj对被解释变量Y的影响是显著的
3.3多元线性回归模型的检验
多元线性回归模型的检验
一、拟合优度检验
定义：在一元线性回归模型中，我们用可决系数R2来衡量估计的模型对观测值的拟合程度。
拟合优度检验
在多元回归中这一比值称为多重可决系数
用 R2 表示
多元线性回归中 Y 的变差分解式为 TSS = RSS + ESS
拟合优度检验
回归平方和 ESS 越大，残差平方和 RSS就越小，被解释变量观测值总变差中能由解释变量解释的那部分变差就越大，模型对观测数据的拟合程度就越高。
如果计算的F值小于临界值，则不拒绝零假设，说明回归模型没有显著意义，即所有解释变量联合起来对Y没有显著影响。
方程显著性检验

计量经济学 )多元线性回归模型的统计检验

i i
ˆ) 0 X i1 (Yi Y i
ˆ) 0 X i 2 (Yi Y i
… X (Y Y ˆ) 0 ik i i
所以从而
ˆ )(Y ˆ Y ) 0 (Y Y
i i
ˆ ) 2 (Y ˆ Y )2 (Y Y ) (Y Y i i i i
解释的那部分离差的大小。
• 那么，TSS、ESS、RSS之间存在的如下关系：
总离差平方和 = 回归平方和 + 残差平方和
TSS
=
ESS
+
RSS
关于TSS=ESS+ RSS的证明过程（教材P73）证明：将TSS，即总离差平方和进行分解：
ˆ ) (Y ˆ Y )) 2 TSS (Y Y ) 2 ((Y Y
• 拟合优度检验：检验模型对样本观测值的拟合程度。
• 在一元回归模型中，拟合优度检验是通过构造一个可以表征拟合程度的统计量R2来实现。
• 在多元回归模型中，也可以用该统计量来衡量样本回归线对样本观测值的拟合程度。
总离差平方和、回归平方和及残差平方和
• 定义
TSS (Y Y ) 2
i

2 ˆ y i
y
2 i
1
yi
ei
2 2
检验模型的拟合优度。 R2叫做多重可决系数，也简称为可决系数或判定系数。
毫无疑问，R2越接近于1，模型的拟合优度越高。但是在应用过程中人们发现，如果在模型中增加一个解释变量，那么模型的回归平方和随之增大，从而R2也随之增大。这就给人一个错觉：要使模型拟合得好，就必须增加解释变量。所以，用来检验拟合优度的统计量必须能够防止这种倾向。
说明

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Variable
Coefficient
C
2.466667
X
2.096970
R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat
0.920751 0.910844 1.975609 31.22424 -19.88243 3.449139
多元线性回归模型的统计检验方法
说明
❖ 由计量经济模型的数理统计理论要求的
❖ 以多元线性模型为例
❖ 将参数估计量和预测值的区间检验单独列为一节，在一些教科书中也将它们放在统计检验中
❖ 包含拟合优度检验、总体显著性检验、变量显著性检验、偏回归系数约束检验、模型对时间或截面个体的稳定性检验等
一、拟合优度检验 Testing the Simulation Level
Variable
Coefficient
C
2.733333
X
2.048485
R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat
0.977949 0.975193 0.987804 7.806061 -12.95096 3.449139
❖ 可决系数r2
r2
ESS
RSS
1
TSS
TSS
模型与样本观测值完全拟合时， r2=1。
该统计量越接近于1，模型的拟合优度越高。 ❖ 问题：
要使得模型拟合得好，就必须增加解释变量；增加解释变量必定使得自由度减少。
❖ 调整的可决系数R2
R2 1 Sr St
1 Sr n k 1 RSS
1
St
TSS n 1
1、关于假设检验
❖ 假设检验是统计推断的一个主要内容，它的基本任务是根据样本所提供的信息，对未知总体分布的某些方面的假设作出合理的判断。
❖ 假设检验的程序是，先根据实际问题的要求提出一个论断，称为统计假设；然后根据样本的有关信息，对的真伪进行判断，作出拒绝或接受的决策。
•为什么以R2作为检验统计量避免片面增加解释变量的倾向？
• R2多大才算通过拟合优度检验？
❖ 在应用软件中，可决系数r2和调整后的可决系数 R2的计算是自动完成的
❖ 在消费模型中
r2=0.999773 R2=0.999739
二、方程显著性检验 Testing the Overal8 4.376487 4.437004 92.94720 0.000011
2、总体平方和、残差平方和和回归平方和
❖ 定义
TSS ( yi y)2 ESS ( yi y ) 2 RSS ( yi yi ) 2
❖ TSS为总体平方和（Total Sum of Squares），反映样本观测值总体离差的大小；ESS为回归平方和（Explained Sum of Squares），反映由模型中解释变量所解释的那部分离差的大小；RSS为残差平方和（Residual Sum of Squares），反映样本观测值与估计值偏离的大小，也是模型中解释变量未解释的那部分离差的大小。
Y1 Y2
25
20
15
10
5
0
0
2
4
6
8 10 12
X
30
25
20
15
10
5
0
0
2
4
6
8 10 12
X
Dependent Variable: Y1 Method: Least Squares Date: 03/04/03 Time: 02:30 Sample: 1 10 Included observations: 10
❖ 矛盾吗？可能吗？
❖ 关键是在TSS=RSS+ESS的推导过程中应用了一组矩条件
xj( iy i y ˆi) 0 j 0 ,1 ,2 , ,k
• 矩条件在大样本下成立，只有1个样本时肯定不成立，在样本足够大时近似成立
• 理解教材中关于TSS=RSS+ESS的推导过程
4、拟合优度检验统计量：可决系数r2和调整后的可决系数R2
1、概念
❖ 检验模型对样本观测值的拟合程度。
❖ 通过构造一个可以表征拟合程度的统计量来实现。
❖ 问题：采用普通最小二乘估计方法，已经保证了模型最好地拟合了样本观测值，为什么还要检验拟合程度？
❖ 答案：选择合适的估计方法所保证的最好拟合，是同一个问题内部的比较；拟合优度检验结果所表示的优劣是不同问题之间的比较。
14.00000 6.271629 2.990192 3.050709 354.7950 0.000000
Dependent Variable: Y2 Method: Least Squares Date: 03/04/03 Time: 02:36 Sample: 1 10 Included observations: 10
Std. Error t-Statistic
Prob.
0.674799 0.108754
4.050590 18.83600
0.0037 0.0000
Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)
Std. Error t-Statistic
Prob.
1.349598 0.217507
1.827705 9.640913
0.1050 0.0000
Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)
❖ 既然ESS反映样本观测值与估计值偏离的大小，可否直接用它作为拟合优度检验的统计量？不行统计量必须是相对量
❖ TSS、ESS、RSS之间的关系 TSS=RSS+ESS
3、一个有趣的现象
(y i y) (y i y ˆi) (y ˆi y i)
(y i y )2 (y i y ˆi)2 (y ˆi y i)2 (y i y )2 (y i y ˆi)2 (y ˆi y )2