《计量经济学》第四章知识
计量经济学第四章

第四章 经典单方程计量经济学模型:放宽基本假定的模型一、内容提要本章主要介绍计量经济模型的二级检验问题,即计量经济检验。
主要讨论对回归模型的若干基本经典假定是否成立进行检验、当检验发现不成立时继续采用OLS 估计模型所带来的不良后果以及如何修正等问题。
包括:异方差性问题、序列相关性问题、多重共线性问题。
1.异方差:含义:随机扰动项的方差随样本点而不同。
后果:OLS 估计是线性、无偏、一致的但不有效;由于随机项异方差的存在而导致的参数估计值的标准差的偏误,通常的假设检验t 检验和F 检验失效;模型的预测变得无效。
检验:图示法、Goldfeld-Quandt 检验法以及White 检验法等。
修正:而当检测出模型确实存在异方差性时,通过采用加权最小二乘法进行修正的估计。
序列相关性也是模型随机扰动项出现序列相关时产生的一类现象。
与异方差的情形相类似,在序列相关存在的情况下,OLS 估计量仍具无偏性与一致性,但通常的假设检验不再可靠,预测也变得无效。
序列相关性的检测方法也有若干种,如图示法、回归检验法、Durbin-Watson 检验法以及Lagrange 乘子检验法等。
存在序列相关性时,修正的估计方法有广义最小二乘法(GLS )以及广义差分法。
多重共线性是多元回归模型可能存在的一类现象,分为完全共线与近似共线两类。
模型的多个解释变量间出现完全共线性时,模型的参数无法估计。
更多的情况则是近似共线性,这时,由于并不违背所有的基本假定,模型参数的估计仍是无偏、一致且有效的,但估计的参数的标准差往往较大,从而使得t-统计值减小,参数的显著性下降,导致某些本应存在于模型中的变量被排除,甚至出现参数正负号方面的一些混乱。
显然,近似多重共线性使得模型偏回归系数的特征不再明显,从而很难对单个系数的经济含义进行解释。
多重共线性的检验包括检验多重共线性是否存在以及估计多重共线性的范围两层递进的检验。
而解决多重共线性的办法通常有逐步回归法、差分法以及使用额外信息、增大样本容量等方法。
计量经济学课程第4章(多元回归分析)

§4.1 多元线性回归模型的两个例子
一、例题1:CD生产函数
Qt AKt 1 Lt 2 et
这是一个非线性函数,但取对数可以转变为一个 对参数线性的模型
ln Qt 0 1 ln Kt 2 ln Lt t
t ~ iid(0, 2 )
注意:“线性”的含义是指方程对参数而言是线 性的
R 2 1 RSS /(N K 1) TSS /(N 1)
调整思想: 对 R2 进行自由度调整。
Page 20
基本统计量TSS、RSS、ESS的自由度:
1.
TSS的自由度为N-1。基于样本容量N,TSS
N i1
(Yi
Y
)2
因为线性约束 Y 1 N
Y N
i1 i
而损失一个自由度。
分布的多个独立统计量平方加总,所得到的新统计量就服从
2 分布。
《计量经济学》,高教出版社2011年6月,王少平、杨继生、欧阳志刚等编著
Page 23
双侧检验
概 率 密 度
概率1-
0
2 1 / 2
2 /2
图4.3.1
2
(N-K-1)的双侧临界值
双侧检验:统计值如果落入两尾中的任何一个则拒绝原假设
《计量经济学》,高教出版社2011年6月,王少平、杨继生、欧阳志刚等编著
Page 24
单侧检验
概 率 密 度
概率 概率
0
2 1
2
图4.3.2 (2 N-K-1)的单侧临界值
H0:
2
2,
0
HA :
2
2 0
计量经济学第四章多重共线性

R-squared
0.989654
Adjusted R-squared 0.986955 S.E. of regression 1437.448 Sum squared resid 47523916 Log likelihood -256.7013 Durbin-Watson stat 1.654140
4
(二)不完全的多重共线性
实际中,常见的情形是解释变量之间存在不 完全的多重共线性。
对于解释变量 X 2 , X 3, X k,存在不全为0的数
1
,
2
,
,使得
k
1 2X2 3X3 ...k Xk u 0
5
(三)解释变量的关系小节
可能表现为三种情形: r为相关系数 (1) rxixj 0 ,解释变量间毫无线性关系。这时多元
Var(ˆ2 )
9
二、不完全多重共线性产生的后果
1、参数估计值的方差增大
Var( βˆ 2 ) = σ 2
1 x22i (1-
r223 )
=
σ2
1
x22i (1 - r223 )
当 r23增大时,
^
Var( 2)
也增大
10
方差膨胀因子 (Variance Inflation Factor)
17 17
2、交叉相关系数(Cross correlation)
相关系数计算的是两组样本的同期相关程 度,交叉相关则可以表示不同期之间的相关 程度。
Eviews操作: Group窗口的view/cross correlation/输入 滞后期设定/ 输出结果阅读:看是否超出2倍标准差线
18
2倍 标准 差线
1、参数估计值有很大的偶然性。 2、参数显著性检验未通过。 3、经济意义检验未通过。 4、相关系数大。
《计量经济学》各章主要知识点

第一章:绪论1.计量经济学的学科属性、计量经济学与经济学、数学、统计学的关系;2.计量经济研究的四个基本步骤(1)建立模型(依据经济理论建立模型,通过模型识别、格兰杰因果关系检验、协整关系检验建立模型);(2)估计模型参数(满足基本假设采用最小二乘法,否则采用其他方法:加权最小二乘估计、模型变换、广义差分法等);(3 )模型检验:经济意义检验(普通模型、双对数模型、半对数模型中的经济意义解释,见例1、例2 ),统计检验(T检验,拟合优度检验、F检验,联合检验等);计量经济学检验(异方差、自相关、多重共线性、在时间序列模型中残差的白噪声检验等);(4 )模型应用。
例1:在模型中,y某类商品的消费支出,x收入,P商品价格,试对模型进行经济意义检验,并解释A"》的经济学含义。
In X = 0.213 +0.25 In 一0.31£其中参数卩'",都可以通过显著性检验。
经济意义检验可以通过(商品需求与收入正相关、与商品价格负相关\商品消费支出关于收入的弹性为0.25 ( 1心/畑)=0.251】心/仏));价格增加一个单位,商品消费需求将减少31%。
例2 :硏究金融发展与贫富差距的关系,认为金融发展先使贫富差距加大(恶化), 尔后会使贫富差距降<氐(好转),成为倒U型。
贫富差距用GINI系数表示,金融发展用(贷款余额/存款总额)表示。
回归结果G/^VZ r =2.34 + 0.641;-1.29x;/模型参数都可以通过显著性检验。
在X的有意义的变化范围内,GINI系数的值总是大于1 ,细致分析后模型变的毫无意义;同样的模型还有:GINI系数的值总是为负= —13.34 + 7.12 兀一14.31#O3.计量经济学中的一些基本概念数据的三种类型:横截面数据、时间序列数据、面板数据;线性模型的概念;模型的解释变量与被解释变量,被解释变量为随机变量(如果—个变量为随机变量,并与随机扰动项相关,这个变量称为内生变量),被解释变量为内生变量,有些解释变量也为内生变量。
计量经济学 第四章

100%
统计检验
利用统计量对模型参数进行假设 检验,判断参数是否显著。
80%
计量经济学检验
包括模型的异方差性、自相关性 、多重共线性等问题的检验。
模型的修正方法
增加解释变量
如果模型存在遗漏变量,可以通过增加解释变量来 修正模型。
删除解释变量
如果模型中某些解释变量不显著或存在多重共线性 ,可以考虑删除这些变量。
模型表达式
Y = β0 + β1X + ε
最小二乘法
通过最小化残差平方和来估计参数β0和β1
参数解释
β0为截距项,β1为斜率项,ε为随机误差项
模型的检验
包括拟合优度检验、显著性检验等
多元线性回归模型
01
02
03
04
模型表达式
参数解释
最小二乘法
Y = β0 + β1X1 + β2X2 + ... + βkXk + ε
最小二乘法估计量的性质
线性性
最小二乘法估计量是随机样本的线性组合。
无偏性
最小二乘法估计量的期望值等于总体参数的 真实值。
有效性
在所有无偏估计量中,最小二乘法估计量的 方差最小。
一致性
随着样本量的增加,最小二乘法估计量收敛 于总体参数的真实值。
最小二乘法的计算步骤
构造设计矩阵X和响应向量Y。 计算设计矩阵X的转置矩阵X'。 计算X'X和X'Y。
求解线性方程组X'Xβ=X'Y,得到回归系 数的最小二乘估计β^=(X'X)^(-1)X'Y。
根据β^计算因变量的拟合值Y^=Xβ^。
计算残差e=Y-Y^,以及残差平方和 RSS=e'e。
计量经济学第四章

同 上
5、定义方程:由经济学或经济统计学的定义决定
的方程;
6、平衡方程:由变量代表的指标之间的平衡关系 决定的方程; 7、经验方程:仅描述由经验得到的数据之间的确 定 性关系,没有什么实质性的意义。
因此,应该尽可能地避免出现。
14
计量经济学 第四章
三、结构式模型
1、结构式模型
根据经济理论和经济行为规律建立的描述 经济变量之间直接关系结构的计量经济学 模型成为结构式模型;而结构式模型中每 个方程都是结构方程;每个结构方程的参
12
计量经济学 第四章
同上
1、行为方程:描述经济系统中变量之间的行为关系;
2、技术方程:描述由技术决定的变量之间的关系;
3、制度方程:描述由制度、法律、法令决定的变
量之间的关系;
4、统计方程:描述由数据之间关系。 在随机方程中,统计方程较多是不好的模型,应该 尽可能地避免出现。
13
计量经济学 第四章
Ⅰ、联立方程模型的提出
联立方程计量经济学模型是相对于单方程
计量经济学模型而言的,它以经济系统为 研究对象;以揭示经济系统中各部分、各 因素间的数量关系和系统的数量特征为目 标;用于经济系统的预测、分析和评价。
使计量经济学模型的重要组成部分。
3
计量经济学 第四章
一、联立方程计量经济学模型问题
单方程计量经济学模型,只能描述经济变
8
计量经济学 第四章
Ⅱ 、基本概念
一、变量
内生变量 变量 外生变量 滞后变量
先决变量(前定变量)
9
计量经济学 第四章
1、内生变量
同上
(1)由所研究的经济系统内部决定的变量;
(2)对系统产生影响,而且也受系统影响; (3)是随机变量; (4)与误差项相关。
计量经济学(第四章多重共线性)
06
总结与展望
研究结论总结
多重共线性现象普遍存在于经济数据中,对计量 经济学模型的估计和解释产生了重要影响。
通过使用多种诊断方法,如相关系数矩阵、方差膨 胀因子(VIF)和条件指数(CI),可以有效地识别 多重共线性问题。
在存在多重共线性的情况下,普通最小二乘法 (OLS)估计量虽然仍然是无偏的,但其方差可能 变得很大,导致估计结果不稳定。
主成分分析法的优点
可以消除多重共线性的影响,同 时降低自变量的维度,简化模型。
岭回归法
岭回归法的基本思想
通过在损失函数中加入L2正则化项(即所有自变量的平方和),使得回归系数的估计更加稳定, 从而消除多重共线性的影响。
岭回归法的步骤
首先确定正则化参数λ的值,然后求解包含L2正则化项的损失函数最小化问题,得到岭回归系数的估 计值。
逐步回归法的优点
可以自动选择重要的自变量,同时消除多重共线性的影响。
主成分分析法
主成分分析法的基本思想
通过正交变换将原始自变量转换 为互不相关的主成分,然后选择 少数几个主成分进行回归分析。
主成分分析法的步骤
首先对原始自变量进行标准化处理, 然后计算相关系数矩阵并进行特征值 分解,得到主成分及其对应的特征向 量。最后,选择少数几个主成分作为 新的自变量进行回归分析。
岭回归法的优点
可以有效地处理多重共线性问题,同时避免过拟合现象的发生。此外,岭回归法还可以提供对所 有自变量的系数进行压缩估计的功能,使得模型更加简洁易懂。
05
实证研究与结果分
析
数据来源及预处理
数据来源
本研究采用的数据集来自于公开的统 计数据库,涵盖了多个经济指标和影 响因素的观测值。
数据预处理
计量经济学-第4章
TSS ESS RSS
4
4.1.1 总离差平方和旳分解
已知由一组样本观察值(Xi,Yi),i=1,2…,n 得到如下样本回归直线
Yˆi ˆ0 ˆ1 X i
yi Yi Y (Yi Yˆi ) (Yˆi Y ) ei yˆi
2
即
P(i
t s t s ) P(t 2
i i
si
t ) 1
2
2
i
i
i
2
i
1
21
于是得到:(1-)旳置信度下, i旳置信区间是
(i
t
2
si , i
t
2
si )
在上述收入-消费支出例中,假如给定 =0.01,
查表得:
因为
t (n 2) t0.005 (8) 3.355 2
▪判断成果合理是否,是基于“小概率事件不易 发生”旳原理
➢ 一次抽样中,尽然不能支持原假设,也就是举反 例否决。
13
4.2.2 变量旳明显性检验
ˆ1 ~ N (1,
2
) xi2
t ˆ1 1 ˆ1 1 ~ t(n 2)
ˆ 2 xi2
S ˆ1
14
检验环节:
(1)对总体参数提出假设
H0: 1=0,
18
4.3 参ห้องสมุดไป่ตู้旳置信区间检验法
假设检验能够经过一次抽样旳成果检验总体参数 假设值旳范围(如是否为零),但它并没有指出 在一次抽样中样本参数值究竟离总体参数旳真值 有多“近”。
要判断样本参数旳估计值在多大程度上能够“近 似”地替代总体参数旳真值,往往需要经过构造 一种以样本参数旳估计值为中心旳“区间”,来 考察它以多大旳可能性(概率)包括着真实旳参 数值。这种措施就是参数检验旳置信区间估计。
计量经济学 第四章:计量经济模型中特殊变量
TC 0 1D1 2 D2 3TY
◇注意如下问题: 模型中虚拟变量的显著性说明什么? 参数经济意思是什么? D1与D2有四种组合,分别反映什么?
2.一个定性因素有多个属性特征的模型 一个定性因素多属性特征指具有两种以上的属性特 征。如文化程度、年龄阶段、季节因素 ◇一个定性因素有多个属性特征需引入多个虚拟变 量
j 0 j 0 j 0
k
k
k
Yt 0 Z 0t 1Z1t r Z rt t
Z rt j r X t j
j 0 k
◇估计原模型参数转变为估计辅助模型参数
Yt 0 X t 1 X t 1 k X t k t Yt 0 Z 0t 1Z1t r Z rt t
Yt Yt 1 (Yt* Yt 1 )
◆适应性预期模型与部分调整模型经过变化也形成 自回归模型
三、自回归模型的参数估计 1.自回归模型的一般形式及特征 Yt 0 1 X t 2Yt 1 t 自回归模型若不存在自相关,可直接估计参数; 自回归模型若存在自相关,滞后被解释变量与随机 误差项高度相关! t ~ t 1 ~ Yt 1 2.自回归模型的检验——H检验(一阶序列相关)
例4-2,季节性因素影响基础利润水平问题 假设模型设定为:
PF 0 1SL 2 D1 3 D2 4 D3 5 D4
则必然出现虚拟变量的陷阱问题,即解释变量的样 本矩阵是奇异的! 因而需减少一个虚拟变量,则回归模型为:
ˆ 688 18.47 D 114.43D 40.21D 0.038SL PF t 1 2 3 t
虚拟变量多少个呢?若考虑调整基础水平变化: 一个定性若有 m个属性特征,在有常数时,模型应 引入 m-1 个虚拟变量;在无常数时,模型应引入 m 个 虚拟变量。 ◇虚拟变量的数量描述 每一个虚拟变量仍用0或者1表示
【计量经济学】第四章精选题与答案解析
第四章:多重共线性二、简答题1、导致多重共线性的原因有哪些?2、多重共线性为什么会使得模型的预测功能失效?3、如何利用辅回归模型来检验多重共线性?4、判断以下说法正确、错误,还是不确定?并简要陈述你的理由。
(1)尽管存在完全的多重共线性,OLS 估计量还是最优线性无偏估计量(BLUE )。
(2)在高度多重共线性的情况下,要评价一个或者多个偏回归系数的个别显著性是不可能的。
(3)如果某一辅回归显示出较高的2i R 值,则必然会存在高度的多重共线性。
(4)变量之间的相关系数较高是存在多重共线性的充分必要条件。
(5)如果回归的目的仅仅是为了预测,则变量之间存在多重共线性是无害的。
5、考虑下面的一组数据:12233i i i Y X X βββ=++来对以上数据进行拟合回归。
(1) 我们能得到这3个估计量吗?并说明理由。
(2) 如果不能,那么我们能否估计得到这些参数的线性组合?可以的话,写出必要的计算过程。
6、考虑以下模型:231234i i i i i Y X X X ββββμ=++++由于2X 和3X 是X 的函数,那么它们之间存在多重共线性。
这种说法对吗?为什么? 7、在涉及时间序列数据的回归分析中,如果回归模型不仅含有解释变量的当前值,同时还含有它们的滞后值,我们把这类模型称为分布滞后模型(distributed-lag model )。
我们考虑以下模型:12313233i t t t t t Y X X X X βββββμ---=+++++其中Y ——消费,X ——收入,t ——时间。
该模型表示当期的消费是其现期的收入及其滞后三期的收入的线性函数。
(1) 在这一类模型中是否会存在多重共线性?为什么? (2) 如果存在多重共线性的话,应该如何解决这个问题? 8、设想在模型12233i i i i Y X X βββμ=+++中,2X 和3X 之间的相关系数23r 为零。
如果我们做如下的回归:1221i i i Y X ααμ=++ 1332i i i Y X γγμ=++(1)会不会存在22ˆˆαβ=且33ˆˆγβ=?为什么? (2)1ˆβ会等于1ˆα或1ˆγ或两者的某个线性组合吗? (3)会不会有22ˆˆvar()var()βα=且33ˆˆvar()var()γβ=? 9、通过一些简单的计量软件(比如EViews 、SPSS ),我们可以得到各变量之间的相关矩阵:2323232311 1k k k k r r r r R r r ⎛⎫ ⎪ ⎪= ⎪ ⎪ ⎪⎝⎭。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章古典线性回归模型在引论中,我们推出了满足凯恩斯条件的消费函数与收入有关的一个最普通模型:C=α+βX+ε,其中α>0,0<β<1ε是一个随机扰动。
这是一个标准的古典线性回归模型。
假如我们得到如下例1的数据例1 可支配个人收入和个人消费支出年份可支配收入个人消费1970 751.6 672.11971 779.2 696.81972 810.3 737.11973 864.7 767.91974 857.5 762.81975 847.9 779.41976 906.8 823.11977 942.9 864.31978 988.8 903.21979 1015.7 927.6 来源:数据来自总统经济报告,美国政府印刷局,华盛顿特区,1984。
(收入和支出全为1972年的十亿美元)一、线性回归模型及其假定一般地,被估计模型具有如下形式:y i=α+βx i+εi,i=1,…,n,其中y是因变量或称为被解释变量,x是自变量或称为解释变量,i标志n个样本观测值中的一个。
这个形式一般被称作y对x的总体线性回归模型。
在此背景下,y称为被回归量,x称为回归量。
构成古典线性回归模型的一组基本假设为:1. 函数形式:y i=α+βx i+εi,i=1,…,n,2. 干扰项的零均值:对所有i,有:E[εi]=0。
σ是一个常数。
3. 同方差性:对所有i,有:Var[εi]=σ2,且24. 无自相关:对所有i ≠j ,则Cov[εi ,εj ]=0。
5. 回归量和干扰项的非相关:对所有i 和j 有Cov[x i ,εj ]=0。
6. 正态性:对所有i ,εi 满足正态分布N (0,2σ)。
模型假定的几点说明:1、函数形式及其线性模型的转换 具有一般形式i i i x g y f εβα++=)()(对任何形式的g(x)都符合我们关于线性模型的定义。
[例] 一个常用的函数形式是对数线性模型:βAx y =。
取对数得:x y ln ln βα+=。
(A ln =α) 这被称作不变弹性形式。
在这个方程中,y 对于x 的变化的弹性是βη===xd yd x dx y dy ln ln //, 它不随x 而变化。
与之相反,线性模型的弹性是:x xdx dy x x x y dxdy βαββαη+=⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛+=⎪⎭⎫⎝⎛=。
对数线性模型通常用来估计需求函数和生产函数。
尽管线性模型具有巨大的灵活性,但在实际中存在着大量的非线性模型的形式。
例如,任何变换也不能将xy ++=βα1和νβαx y +=(0<ν<1) 转化为线性回归模型。
2、回归量对于回归量即解释变量我们有两种处理方法,第一种将X 设定为非随机变量,第二种方法将X 设定为随机变量。
1)当X 为非随机变量x i 的值在y i 的概率分布中是已知的常数。
这条假定暗示y i 的每一个值都是一个概率分布的观察值,这个概率分布具有均值i i i i i i i x E x x E x y E βαεβαεβα+=++=++=][][]|[和方差2][][]|[σεεβα==++=i i i i i Var x Var x y Var 。
此外,有必要假定,对n ≥1∑-⎪⎭⎫ ⎝⎛=⎪⎭⎫ ⎝⎛ii xx x x n S n 2)(11 是一个有限正数,这个假定被称作识别条件,若x i 没有任何变化,我们所有的观测值将落在一条垂直线上,我们的观测数据将不允许我们作出关于回归α+βx 的任何推断。
这个识别条件等同于子样的极差max(X 1,…,X n )-min(X 1,…,X n )≠0。
2)当X 为随机变量若x 被当作一个随机变量,则假定1成为一个对y 和x 的联合分布的陈述。
我们就用条件期望和方差来处理。
3、随机干扰项1)如果干扰项不是零均值,即E[εi ]=μ,对所有的i ,则α+βx +εi 等同于(α+μ)+βx +(εi -μ),令α′=α+μ及εi ′=εi -μ可得到模型,εβα'++'=x y ,此模型满足我们原始模型的要求。
2)观测值中的随机部分假定是不相关的: E[εi εj ]=0 对所有i 不等于j 。
这被称为非自相关。
二、最小二乘法 1 最小二乘系数总体回归是E[y i |x i ]= α+βx i ,而我们对E[y i |x i ]的估计记作i i bx a y+=ˆ。
和第i 的数据点相联系的干扰项是i i i x y βαε--=对a 和b 的任何值,我们用残差i i i bx a y e --=来估计εi ,从这些定义可知:i i i x y εβα++=i i e bx a ++=。
对任何一对值a 和b ,残差平方和是:∑∑--=ii i iibx a y e22)(最小二乘法系数就是使这个拟合标准达到最小的a 和b 的值。
最小化的一阶条件是∑---=∂∑∂ii i i i bx a y a e )1)((2)(2 ∑=---=ii ibx a y0)(2和∑=---=∂∑∂ii i i i x bx a y b e 0))((2)(12 ∑=---=ii ii bx a yx 0)(2将上两式展开合并同类项后得到正规方程组,b x nay i i ii ⎪⎭⎫⎝⎛+=∑∑ (1) ∑∑∑⎪⎭⎫ ⎝⎛+⎪⎭⎫ ⎝⎛=b x a x y x i i i i i i 2 (2)(1)式暗示∑==ni ie10,而(2)式暗示∑=ii i e X 0为了得到解,我们首先用n 除(1)结果是x b a y +=最小二乘回归线通过均值点。
现在分离a :x b y a -= (3)有了a 后,我们可以求解(2)得到b 。
首先,x n x i i =∑。
将此和(3)代入(2)并重新安排各项。
⎪⎭⎫⎝⎛-=-∑∑22x n x b y x n yx i i iii或22x n x y x n y x b i i i i i -∑-∑=2)())((x x y y x x i i i i i -∑--∑=最小的残差平方和,对a 和b 的二阶微商矩阵是⎥⎦⎤⎢⎣⎡∑∑∑=⎥⎦⎤⎢⎣⎡∂∑∂∂∂∑∂∂∂∑∂∂∑∂222222222222222/)(/)(/)(/)(i i i i i i i i i i i i i i x x x nb e a b e b a e a e . 我们必须表明这是一个正定矩阵,两个对角元素永远为正,所以仅需证明行列式为正,行列式为x n x x x n i i i i i i =∑∑-∑但22)(4)4(,所以行列式为,)(44222⎪⎭⎫ ⎝⎛-=⎪⎭⎫ ⎝⎛-∑∑i i i i x x n x n x n 由识别条件得知这是一个正值。
这样a 和b 是平方和的最小化因子。
2 回归拟合的评价 1)回归量x 是非随机变量 总变差是离差的平方和:∑-=ii y y SST 2)(∑∑∑+-=-ii ii iie y yy y222)ˆ()(∑+i i y e ˆ2 ∑∑+-=ii iie x xb222)(第二个等式成立是因为∑∑∑∑=+=+====0)(ˆ111ni i i ini iini ii X e b e a bX a e ye我们将其写作总平方和=回归平方和+残差平方和或SST=SSR+SSE.我们利用下式得到一个关于回归直线对数据拟合程度的度量SSTSSRR =2决定系数 为了方便计算与分析,约定∑=-=,,)(2xx x i xx S S x x S ∑=-=,,)(2yy y i yy S S x x S和 ∑--=ii ixy y y x xS ))((x 和y 间的样本相关系数是)/(y x xy xy S S S r =。
利用xx xy S S b /=我们得到)//(x y xy S S b r =,这表明回归的斜率和x 、y 间的相关系数具有相同的符号,而且222xyyyxx r S S b SST SSR R === . 这进一步证明了我们利用R 2作为回归模型拟合优劣指标的正确性。
3 方差分析表进一步研究回归平方和SSR 与残差平方和SSE ,我们可以得到下面三个结论: a )在β=0的假设条件下,回归平方和2σSSR服从自由度为1的卡方分布x 2(1)(为什么?);b )残差平方和2σSSE服从自由度为n-2的卡方分布x 2(n -2);c )在β=0的假设条件下,)2/(1/-n SSE SSR 服从F (1,n -2)分布。
现在我们来证明这三个结论。
证明: a )∑∑=-==iii xxiiixxxy y c S y x x S S b )(,其中xxi i S xx c -=,易知Y C C Y b Y C b c c c C S c n xxii ''='='==∑2212,,),(,1则令 , ∑''==-=ixx xx i Y C C S Y b S x x b SSR 222)(。
可以验证C C S xx '是幂等矩阵。
C C S C C C C S C C S C C S xx xx xx xx '='='⋅')(2∑=='='ii xx xx xx c S C C S tr C C S r 1)()(2在β=0的假设条件下,2σSSR才服从自由度为1的卡方分布x 2(1)(为什么?)b )因为SSE SSR SST Y YM SST +==及0 所以Y C C S M Y SSE xx )(0'-'= 易验证C C S M xx '-0也是幂等矩阵C C S C C M S M C C S M C C S M xx xx xx xx '+'-'-='-00020)(C C S M C C i i S ni i C C S n C C S M xx xx xx xx '-=''+''+'-=0011 最后一个等式成立是因为∑=='='iicC i i C 0。
所以211)()(00-=⋅--='-='-n S S n C C S M tr C C S M r xxxx xx xx ,从而)2(~22-n x SSEσ。
此结论成立不需要β=0的假设条件下,为什么?c )因为)1()(0C C S i i nI C C S C C S M C C S xx xx xx xx '-'-⋅'='-⋅' 01='-''-'=C C S i i C C S nC C S xx xx xx 所以SSR 与SSE 是相互独立的统计量。