经典线性回归模型

合集下载

第四章--经典线性回归模型(高级计量经济学-清华大学-潘文清)PPT课件

.
11
• 一些有用的等式
(1) (2) 因为 (3)
则
且 (4)
X’e=0
b-=(X’X)-1X’
b=(X’X)-1X’Y=(X’X)-1X’(X+)=+(X’X)-1X’
定义nn方阵：
P=X(X’X)-1X’ , M=In-P P=P’ ， M=M’
P2=P， M2=M
PX=X, MX=On(k+1) e=MY=M
SSR(b)=e’e=Y’MY=’M
.
12
三、高斯-马尔科夫定理
Gauss-Markov Theorem
•Question: OLS估计量的统计性质如何？
(1)[Unbiaseness] E(b|X)=, E(b)=
E(b|X)=E[(+(X’X)-1X’)|X]=+(X’X)-1X’E(|X)=
注意：
(1) 假设4可写成
E(ij|X)=2ij,
其中， i= j时，ij=1； i≠j时，ij=0
矩阵形式： E(’)=2I
.
7
(2)由假设2，
Var(i|X)=E(i2|X)-E[(i|X)]2=E(i|X)=2
同理， Cov(i,j|X)=E(ij|X)=0
(3) 假设4意味着存在非条件同方差性：
(2) 由于可以有j≤i, 或j>i, 意味着i既不依赖过去的X，也不依赖于未来的X。因此排除了动态模型。
例：对AR(1)模型： Yi=0+1Yi-1+i=Xi’+i
这里Xi=(1, Yi-1)’，显然E(Xii)=E(Xi)E(i)=0，但
E(Xi+1i)≠0。因此，E(i|X关于严格外生性有其他的定义。如定义为i独立于X，或X是非随机的。这一定义排除了条件异方差性。而我们这里的假设2是允许存在条件异方差性的。

2 经典线性回归模型I

第二章经典线性回归模型：估计、统计性质与统计检验•经典线性回归模型：假设与OLS估计•OLS估计的小样本性质与统计检验•OLS估计的大样本性质与统计检验§1.1 经典线性回归模型：假设与OLS估计一、经典线性回归模型二、经典线性回归模型的OLS估计E(Y|X)回归分析的基本逻辑：寻找样本回归线，并用样本回归线近似代表总体回归线问题：能否代表？需要通过检验来回答！(1) 对残差平方和SSR(b )= Σe t 2=e ’e =(Y -Xb )’(Y -Xb ) 1阶偏导： ∂SSR/∂b = -2X ’(Y-Xb )2阶偏导： ∂2SSR/∂b ∂b ’= 2X ’X由于X ’X 为正定矩阵(Why?), 从而b =(X ’X )-1(X ’Y )是最小值由1阶极值条件可以得到所谓正规方程(normal equations ): X ’(Y-Y-XbXb )=X ’e =0 ⇔ Σt X tj e t =0 (j=1,2,…,k )当模型含有值恒为1的常数项时， Σe t =0正规方程是OLS 所特有的，而不论是否有E(εt |X )=02、OLS 估计的数值性质（4）一些有用的等式a. X’e=0b. b −β=(X’X)-1X’ε因为b=(X’X)-1X’Y=(X’X)-1X’(Xβ+ε)=β+(X’X)-1X’ε c. 定义n×n方阵：P P X=X(X’X)-1X’(投影矩阵),M X=I n−P X(消灭矩阵)则P=P X’， M M X=M X’XP X2=P X， M M X2=M XX=X, M X X=O n×(k+1)且PXd. e=M X Y=M XεSSR(b)=e’e=Y’M X Y=ε’M Xε二元回归的示例图赤池信息准则(Akaike information criterion, AIC, 1973) AIC=ln[e’e/n]+2(k+1)/n=goodness of fit + model complexityAIC= -2ln L/n +2(k+1)/n贝叶斯信息准则(Baysian information criterion, BIC)施瓦茨准则（Schwarz criterion，SC, 1978）BIC=ln[e’e/n]+(k+1)ln(n)/nBIC/SC= -2ln L/n+(k+1)ln(n)/n贝叶斯信息准则对多引入多余的解释变量给出了更重的惩罚。

经典线性回归模型

一、线性回归模型的基本假设---P99-100-105
假设1. 解释变量X是确定性变量，不是随机变量；
假设2. 随机误差项具有零均值、同方差和无自相关：
E(i)=0 Var (i)=2 Cov(i, j)=0
i=1,2, …,n i=1,2, …,n i≠j i,j= 1,2, …,n
– （2）对回归方程、参数估计值进行显著性检验；
– （3）利用回归方程进行分析、评价及预测。
二、总体回归函数
• 回归分析关心的是根据解释变量的已知或
给定值，考察被解释变量的总体均值，即当解释变量取某个确定值时，与之统计相关的
被解释变量所有可能出现的对应值的平均值。
• 例2.1：一个假想的社区有100户家庭组成，要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。即如果知道了家庭的月收入，能否预测该社区家庭的平均月消费支出水平。
一双变量线性回归模型的基本假设二参数的普通最小二乘估计ols三最小二乘估计量的性质四参数估计量的概率分布及随机干扰项方差的估计回归分析的主要目的是要通过样本回归函数模型srf尽可能准确地估计总体回归函数模型prf
第二章经典线性回归模型：双变量线性回归模型
• 回归分析概述 • 双变量线性回归模型的参数估计 • 双变量线性回归模型的假设检验 • 双变量线性回归模型的预测 • 实例
3500
每月消费支出 Y （元）
3000 2500 2000 1500 1000
500
0
500
1000
1500 2000 2500 3000 每月可支配收入X（元）
3500 4000
• 在给定解释变量Xi条件下被解释变量Yi的期望轨迹称为总体回归线（population regression line），或更一般地称为总体回归曲线（population regression curve）。

3 多元线性回归模型(经典模型,举一反三)

样本回归函数的矩阵表达:
ˆ ˆ Y Xβ
或
e1 e e 2 e n
ˆ Y Xβ e
其中：
ˆ 0 ˆ ˆ 1 β ˆ k

二、多元线性回归模型的基本假定
假设1，解释变量是非随机的或固定的，且各 X之间互不相关（无多重共线性）。
表示：各变量X值固定时Y的平均响应。
j也被称为偏回归系数，表示在其他解释变
量保持不变的情况下，X j每变化1个单位时，Y的均值E(Y)的变化; 或者说j给出了X j的单位变化对Y均值的 “直接”或“净”（不含其他变量）影响。
其中
Y Xβ μ
总体回归模型n个随机方程的矩阵表达式为:
1 1 X 1
五、样本容量问题
⒈ 最小样本容量所谓“最小样本容量”，即从最小二乘原理和最大或然原理出发，欲得到参数估计量，不管其质量如何，所要求的样本容量的下限。样本最小容量必须不少于模型中解释变量的数目（包括常数项）,即 n ≥ k+1
因为，无多重共线性要求：秩(X)=k+1

可求得： ( X X) 于是：
1
0.0003 0.7226 0.0003 1.35 E 07
103 .172 0.7770
ˆ 1 0.7226 0.0003 15674 ˆ β ˆ 2 0.0003 1.35 E 07 39648400
Yi 0 1 X 1i 2 X 2 i k X ki i
也被称为总体回归函数的随机表达形式。它的非随机表达式为:

线性回归模型的经典假定及检验修正

线性回归模型的经典假定及检验、修正一、线性回归模型的基本假定1、一元线性回归模型一元线性回归模型是最简单的计量经济学模型，在模型中只有一个解释变量，其一般形式是Y =β0+β1X 1+μ其中，Y 为被解释变量，X 为解释变量，β0与β1为待估参数，μ为随机干扰项。

回归分析的主要目的是要通过样本回归函数（模型）尽可能准确地估计总体回归函数（模型）。

为保证函数估计量具有良好的性质，通常对模型提出若干基本假设。

假设1：回归模型是正确设定的。

模型的正确设定主要包括两个方面的内容：（1）模型选择了正确的变量，即未遗漏重要变量，也不含无关变量；（2）模型选择了正确的函数形式，即当被解释变量与解释变量间呈现某种函数形式时，我们所设定的总体回归方程恰为该函数形式。

假设2：解释变量X 是确定性变量，而不是随机变量，在重复抽样中取固定值。

这里假定解释变量为非随机的，可以简化对参数估计性质的讨论。

假设3：解释变量X 在所抽取的样本中具有变异性，而且随着样本容量的无限增加，解释变量X 的样本方差趋于一个非零的有限常数，即∑(X i −X ̅)2n i=1n→Q,n →∞ 在以因果关系为基础的回归分析中，往往就是通过解释变量X 的变化来解释被解释变量Y 的变化的，因此，解释变量X 要有足够的变异性。

对其样本方差的极限为非零有限常数的假设，旨在排除时间序列数据出现持续上升或下降的变量作为解释变量，因为这类数据不仅使大样本统计推断变得无效，而且往往产生伪回归问题。

假设4：随机误差项μ具有给定X 条件下的零均值、同方差以及无序列相关性，即E(μi|X i)=0Var(μi|X i)=σ2Cov(μi,μj|X i,X j)=0, i≠j随机误差项μ的条件零均值假设意味着μ的期望不依赖于X的变化而变化，且总为常数零。

该假设表明μ与X不存在任何形式的相关性，因此该假设成立时也往往称X为外生性解释变量随机误差项μ的条件同方差假设意味着μ的方差不依赖于X的变化而变化，且总为常数σ2。

计量经济学练习题完整版

计量经济学试题1一名词解释（每题5分，共10分） 1. 经典线性回归模型2. 加权最小二乘法（WLS ）二填空（每空格1分，共10分）1．经典线性回归模型Y i = B 0 + B 1X i + µi 的最小二乘估计量b 1满足E ( b 1 ) = B 1，这表示估计量b 1具备性。

2．广义差分法适用于估计存在问题的经济计量模型。

3．在区间预测中，在其它条件不变的情况下，预测的置信概率越高，预测的精度越。

4．普通最小二乘法估计回归参数的基本准则是使达到最小。

5．以X 为解释变量，Y 为被解释变量，将X 、Y 的观测值分别取对数，如果这些对数值描成的散点图近似形成为一条直线，则适宜配合模型。

6．当杜宾-瓦尔森统计量 d = 4时，ρˆ＝，说明。

7．对于模型i i i X Y μββ++=10，为了考虑“地区”因素（北方、南方两种状态）引入2个虚拟变量，则会产生现象。

8. 半对数模型LnY i = B 0 + B 1X i + µI 又称为模型。

9.经典线性回归模型Y i = B 0 + B 1X i + µi 的最小二乘估计量b 0、b 1的关系可用数学式子表示为。

三单项选择题（每个1分，共20分）1．截面数据是指--------------------------------------------------------------（）A ．同一时点上不同统计单位相同统计指标组成的数据。

B ．同一时点上相同统计单位相同统计指标组成的数据。

C ．同一时点上相同统计单位不同统计指标组成的数据。

D ．同一时点上不同统计单位不同统计指标组成的数据。

2．参数估计量βˆ具备有效性是指------------------------------------------（） A ．0)ˆ(=βar V B.)ˆ(βarV 为最小 C ．0)ˆ(=-ββD.)ˆ(ββ-为最小 3．如果两个经济变量间的关系近似地表现为：当X 发生一个绝对量（X ∆）变动时，Y 以一个固定的相对量（Y Y /∆）变动，则适宜配合的回归模型是------------------------------------------------------------------------------------------- （）A ．i i i X Y μβα++= B.i i i X Y μβα++=ln C ．i ii X Y μβα++=1D.i i i X Y μβα++=ln ln 4．在一元线性回归模型中，不可能用到的假设检验是----------（） A ．置信区间检验 B.t 检验 C.F 检验 D.游程检验5．如果戈里瑟检验表明，普通最小二乘估计的残差项有显著的如下性质：24.025.1i i X e +=，则用加权最小二乘法估计模型时，权数应选择-------（）A ．i X 1 B. 21i X C.24.025.11i X + D.24.025.11i X +6．对于i i i i X X Y μβββ+++=22110，利用30组样本观察值估计后得56.827/)ˆ(2/)ˆ(2=-∑-∑=iiiY Y Y Y F ，而理论分布值F 0.05(2,27)=3.35，，则可以判断（）A ． 01=β成立 B. 02=β成立 C. 021==ββ成立 D. 021==ββ不成立7．为描述单位固定成本（Y ）依产量（X ）变化的相关关系，适宜配合的回归模型是：A ．i i i X Y μβα++= B.i i i X Y μβα++=ln C ．i ii X Y μβα++=1D.i i i X Y μβα++=ln ln 8．根据一个n=30的样本估计ii i e X Y ++=10ˆˆββ后计算得d=1.4，已知在95%的置信度下，35.1=L d ，49.1=U d ，则认为原模型------------------------（）A ．存在正的一阶线性自相关 B.存在负的一阶线性自相关 C ．不存在一阶线性自相关 D.无法判断是否存在一阶线性自相关9．对于ii i e X Y ++=10ˆˆββ，判定系数为0.8是指--------------------( ) A ．说明X 与Y 之间为正相关 B. 说明X 与Y 之间为负相关 C ．Y 变异的80%能由回归直线作出解释 D ．有80%的样本点落在回归直线上10. 线性模型i i i i X X Y μβββ+++=22110不满足下列哪一假定，称为异方差现象-------------------------------------------------------------------------------( )A ．0)(=j i ov C μμ B.2)(σμ=i ar V (常数) C ．0),(=i i ov X C μ D.0),(21=i i ov X X C11．设消费函数i i i X D Y μβαα+++=10，其中虚拟变量⎩⎨⎧=南方北方01D ，如果统计检验表明1α统计显著，则北方的消费函数与南方的消费函数是--（）A ．相互平行的 B.相互垂直的 C.相互交叉的 D.相互重叠的12. 在建立虚拟变量模型时，如果一个质的变量有m 种特征或状态，则一般引入几个虚拟变量：----------------------------------------------------------------（）A ．m B.m+1 C.m －1 D.前三项均可 13. 在模型i i iX Y μββ++=ln ln ln 10中，1β为---------------------（）A ．X 关于Y 的弹性 B.X 变动一个绝对量时Y 变动的相对量 C ．Y 关于X 的弹性 D.Y 变动一个绝对量时X 变动的相对量14．对于i i i e X Y ++=10ˆˆββ，以S 表示估计标准误差，iY ˆ表示回归值，则-------------------------------------------------------------------------------------------（）A ．S=0时，0)ˆ(=-∑ti Y Y B.S=0时，∑==-ni i i Y Y 120)ˆ( C ．S=0时，)ˆ(ii Y Y -∑为最小 D.S=0时，∑=-ni i i Y Y 12)ˆ(为最小 15．经济计量分析工作的基本工作步骤是-----------------------------（）A ．设定理论模型→收集样本资料→估计模型参数→检验模型B ．设定模型→估计参数→检验模型→应用模型C ．理论分析→数据收集→计算模拟→修正模型D ．确定模型导向→确定变量及方程式→应用模型16．产量（X ，台）与单位产品成本（Y ，元/台）之间的回归方程为：X Y5.1356ˆ-=，这说明-----------------------------------------------------------（）A ．产量每增加一台，单位产品成本平均减少1.5个百分点B ．产量每增加一台，单位产品成本减少1.5元C ．产量每增加一台，单位产品成本减少1.5个百分点D ．产量每增加一台，单位产品成本平均减少1.5元17．下列各回归方程中，哪一个必定是错误的------------------------（）A ．8.02.030ˆ=+=XY i i r X Y B. 91.05.175ˆ=+-=XY i i r X Y C ．78.01.25ˆ=-=XY ii r X Y D. 96.05.312ˆ-=--=XY ii r X Y18．用一组有28个观测值的样本估计模型i i i X Y μββ++=10后，在0.05的显著性水平下对1β的显著性作t 检验，则1β显著地不等于0的条件是统计量t 大于-------------------------------------------------------------------------------------（）A ．t 0.025(28) B. t 0.05(28) C. t 0.025(26) D. t 0.05(26)19．下列哪种形式的序列相关可用DW 统计量来检验（V t 为具有零均值、常数方差，且不存在序列相关的随机变量）---------------------------------（）A ．t t t V +=-1ρμμ B.t t t t V +⋅⋅⋅++=--121μρρμμ C. t t V ρμ= D. ⋅⋅⋅++=-12t t t V V ρρμ20．对于原模型t t t X Y μββ++=10，一阶差分模型是指------------（）A ．)()()(1)(1t tt t t t t X f X f X X f X f Y μββ++=B ．t t t X Y μβ∆+∆=∆1C ．t t t X Y μββ∆+∆+=∆10D ．)()()1(11101----+-+-=-t t t t t t X X Y Y ρμμρβρβρ四多项选择题（每个2分，共10分）1．以Y 表示实际值，Yˆ表示回归值，i e 表示残差项，最小二乘直线满足------------------------------------------------------------------------------------------（）A ．通用样本均值点（Y X ,） B.ii Y Y ˆ∑=∑ C ．0),ˆ(=i i ov e Y C D.0)ˆ(2=-∑i i Y Y E ．0)ˆ(=-∑Y Y i2．剩余变差（RSS ）是指--------------------------------------------------（）A ．随机因素影响所引起的被解释变量的变差B ．解释变量变动所引起的被解释变量的变差C ．被解释变量的变差中，回归方程不能作出解释的部分D．被解释变量的总变差与解释变量之差E．被解释变量的实际值与回归值的离差平方和3. 对于经典线性回归模型，0LS估计量具备------------------------（）A．无偏性 B.线性特性 C.正确性 D.有效性 E.可知性4. 异方差的检验方法有---------------------------------------------------（）A．残差的图形检验 B.游程检验 C.White检验D.帕克检验E.方差膨胀因子检验5. 多重共线性的补救有---------------------------------------------------（）A．从模型中删掉不重要的解释变量 B.获取额外的数据或者新的样本 C.重新考虑模型 D.利用先验信息 E. 广义差分法五简答计算题（4题，共50分）1.简述F检验的意图及其与t检验的关系。

各种线性回归模型原理

各种线性回归模型原理线性回归是一种广泛应用于统计学和机器学习领域的方法，用于建立自变量和因变量之间线性关系的模型。

在这里，我将介绍一些常见的线性回归模型及其原理。

1. 简单线性回归模型（Simple Linear Regression）简单线性回归模型是最简单的线性回归模型，用来描述一个自变量和一个因变量之间的线性关系。

模型方程为：Y=α+βX+ε其中，Y是因变量，X是自变量，α是截距，β是斜率，ε是误差。

模型的目标是找到最优的α和β，使得模型的残差平方和最小。

这可以通过最小二乘法来实现，即求解最小化残差平方和的估计值。

2. 多元线性回归模型（Multiple Linear Regression）多元线性回归模型是简单线性回归模型的扩展，用来描述多个自变量和一个因变量之间的线性关系。

模型方程为：Y=α+β1X1+β2X2+...+βnXn+ε其中，Y是因变量，X1,X2,...,Xn是自变量，α是截距，β1,β2,...,βn是自变量的系数，ε是误差。

多元线性回归模型的参数估计同样可以通过最小二乘法来实现，找到使残差平方和最小的系数估计值。

3. 岭回归（Ridge Regression）岭回归是一种用于处理多重共线性问题的线性回归方法。

在多元线性回归中，如果自变量之间存在高度相关性，会导致参数估计不稳定性。

岭回归加入一个正则化项，通过调节正则化参数λ来调整模型的复杂度，从而降低模型的过拟合风险。

模型方程为：Y=α+β1X1+β2X2+...+βnXn+ε+λ∑βi^2其中，λ是正则化参数，∑βi^2是所有参数的平方和。

岭回归通过最小化残差平方和和正则化项之和来估计参数。

当λ=0时，岭回归变为多元线性回归，当λ→∞时，参数估计值将趋近于0。

4. Lasso回归（Lasso Regression）Lasso回归是另一种用于处理多重共线性问题的线性回归方法，与岭回归不同的是，Lasso回归使用L1正则化，可以使得一些参数估计为0，从而实现特征选择。

经典线性回归模型的Eviews操作

经典线性回归模型经典回归模型在涉及到时间序列时，通常存在以下三个问题：1）非平稳性→ ADF单位根检验→ n阶单整→取原数据序列的n阶差分（化为平稳序列）2）序列相关性→D.W.检验/相关图/Q检验/LM检验→n阶自相关→自回归ar(p)模型修正3）多重共线性→相关系数矩阵→逐步回归修正注：以上三个问题中，前两个比较重要。

整体回归模型的思路：1）确定解释变量和被解释变量，找到相关数据。

数据选择的时候样本量最好多一点，做出来的模型结果也精确一些。

2）把EXCEL里的数据组导入到Eviews里。

3）对每个数据序列做ADF单位根检验。

4）对回归的数据组做序列相关性检验。

5）对所有解释变量做多重共线性检验。

6）根据上述结果，修正原先的回归模型。

7）进行模型回归，得到结论。

Eviews具体步骤和操作如下。

一、数据导入1）在EXCEL中输入数据，如下：除去第一行，一共2394个样本。

2）Eviews中创建数据库：File\new\workfile, 接下来就是这个界面（2394就是根据EXCEL里的样本数据来），OK3）建立子数据序列程序：Data x1再enter键就出来一个序列，空的，把EXCEL里对应的序列复制过来，一个子集就建立好了。

X1是回归方程中的一个解释变量，也可以取原来的名字，比如lnFDI，把方程中所有的解释变量、被解释变量都建立起子序列。

二、ADF单位根检验1）趋势。

打开一个子数据序列，先判断趋势：view\graph，出现一个界面，OK。

得到类似的图，下图就是有趋势的时间序列。

X1.4.2.0-.2-.4-.6-.8100020003000400050002）ADF检验。

直接在图形的界面上进行操作，view\unit root test，出现如下界面。

在第二个方框内根据时序的趋势选择，Intercept指截距，Trend为趋势，有趋势的时序选择第二个，OK，得到结果。

上述结果中，ADF值为-3.657113，t统计值小于5%，即拒绝原假设，故不存在单位根。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

·β的OLS估计量：在假定2.3成立时
( ) å å b =
XTX
-1 X T Y
= çæ 1 èn
n i=1
xi xiT
Hale Waihona Puke -1ö æ1 ÷ç ø èn
n i=1
xi yi
÷ö ø
( ) ·估计量的抽样误差（sampling error）： b - b = X T X -1 X Te
·第i次观测的拟合值（fitted value）： yˆi = xiTb
且自变量的回归系数和 y 与 x 的样本相关系数之间的关系为
b1 == corr(Y , X )
å( 1 n
n - 1 i=1
yi
- y)2
º r sy
å( ) 1 n
n - 1 i=1
xi - x 2
sx
·修正决定系数(adjusted coefficient of determination, adjusted R square)
4．假定我们观测到上述这些变量的n组值： (y i , x i1 , L , ) x ip (i=1，…，n)。称
这n组值为样本（sample）或数据（data）。
§2.2 经典线性回归模型的假定
假定 2.1（线性性(linearity)）
yi = b0 + b1xi1 + L + b p xip + e i (i=1，…，n)。
( ) ( ) E ~x jei
çæ E x j1e i =ç M
÷ö ÷=0
(i=1，…，n ; j=1，…，n )。
( ) ç
è
E
x jp e i
÷ ø
·不相关条件（zerocorrelation conditions）
( ) cov ei , x jk = 0 (对所有i，j，k)。
由以上严格外生性的含义可知，如果在时间序列数据中存在的滞后效应
（lagged effect）和反馈效应（feetback effect），那么严格外生性条件就不成立。因
而，在严格外生性假定下推出的性质就不能用于这类时间序列数据。滞后效应是指自变量历史值对因变量当前值的影响，反馈效应是指因变量当前值对自变量未来值的影响。假定2.3（无多重共线性(no multicollinearity)）
n
(yi - y)2
yˆi - yˆ 2
i =1
i =1
对只有一个自变量的一元线性回归，R2 就是 y 与 x 的样本相关系数的平方，
复相关系数就是 y 与 x 的样本相关系数的绝对值，即
( ) R2 = corr(Y, Yˆ) 2 = (corr(Y , X ))2 ， R = corr(Y , Yˆ) = corr(Y , X )
·残差向量（vector of OLS residuals）：e=YXb= Y - Yˆ =(IH)Y≡MY = Me
·零化子（annihilator）：M=In – H （对称幂等，秩为np1，MX=0）
å ·一阶条件： X T e = 0 ，即
1n n i=1 xiei = 0
（ E(xiei ) = 0 ）
n×(p+1)矩阵X的秩为(p+1)的概率为1。
假定2.4（球面误差方差(spherical error variance)）
Var(e | ~x1 , L , ~xn ) = s 2In
·条件同方差（conditional homoskedasticity）
( ) E
e
2 i
|
~x 1
,
L
,
~xn
§2.3 随机样本的经典线性回归模型
若样本 (yi , ~xiT )(i=1，…，n)为IID，那么假定2.2和假定2.4可简化为
假定2.2: E(ei | ~xi ) = 0 (i=1，…，n)
( ) 假定2.4：
E
e
2 i
|
~x i
=s2 >0
(i=1，…，n)
§2.4 确定性自变量的经典线性回归模型
·OLS估计的几何意义：Y = Xb + e = Yˆ + e
L(X)
Y
e
Yˆ
Y T Y = Yˆ T Yˆ + eT e
·残差平方和（residuals sum of squares）
RSS= eTe = Y T MY = e T Me ，(其自由度为np1) ·σ2 的OLS估计量
s2 = RSS º RMS （残差均方，residual mean square）
i=1
i=1
i =1
称这个等式为平方和分解公式。记
SST
º
n
å (yi
i =1
-
y )2
= Y T çæ I è
-
1 iiT n
÷ö Y ø
（称为总平方和，其自由度为n1）
(其中，i = (1,L,1)T 表示每个元素均为1的n维向量)
n
SSreg º å (yˆi - y)2 = SST - RSS （称为回归平方和，其自由度为p） i =1
变量的函数 b0 + b1xi1 + L + b p xip 为回归函数（regression function）或简称为回归
（regression）。称 b0 为回归的截距(ntercept)，称 bk (k = 1,L, p) 为自变量的回归系数
（regression coefficients）。某个自变量的回归系数表示在其它条件保持不变的情况下，
由假定2.1、假定2.2和假定2.4有
( ) ( ) yi = xiT b + e i ，Var(yi ) = Var xiT b + Var (ei ) = Var xiT b + s 2
因此理论上，由自变量变异决定的因变量变异的比例（称为理论决定系数）为
理论决定系数
=
1
-
s2
( Var yi
)
å 分别用
n - p -1
·回归（方程）标准误（standard error of the regression (equation)）
s = RSS n - p -1
(残差标准误，residual standard error)
·平方和分解公式
当回归方程包含常数项时，可以证明
n
n
n
å (yi - y )2 = å (yˆi - y )2 + å ei2
或者说决定系数R2度量了解释变量（回归函数）能够解释的因变量变异的比例。
·复相关系数(multiple correlation coefficient，multiple R )
R = 1 - RSS = corr(Y , Yˆ) º SST
( ) n
å(yi - y) yˆi - yˆ
i =1
( ) å å n
( ) ·拟合值向量（vector of fitted value）： Yˆ = Xb = X X T X -1 X TY º HY ( ) ·投影矩阵（projection matrix）： H º X X T X X T （对称幂等，秩为p+1，HX=X）
·第i次观测的OLS残差（OLS residual）： ei = yi - xiTb = yi - yˆi
归的效应。残差平方和表示总变异中不能解释的部分，残差平方和是由不可观测的
误差的波动产生的。
·决定系数（coefficient of determination, R square）
R2 = 1 - RSS ，
SST
当回归方程包含常数项时，由平方和分解公式有 0 £ R2 £ 1。当回归方程不包含
n
n
yi = xiT b + e i (i=1，…，n)。
又记
çæ1
X= ç M
x11 M
L L
x1 p M
÷ö ÷
，
Y=
æ ç ç
y1 M
ö ÷ ÷
，
e
=
æ ç ç
e1 M
ö ÷ ÷
，则
çè1
xn1
L
x np
÷ ø
çè yn ÷ø
çèe n ÷ø
Y = Xb + e
假定2.2（严格外生性(strictly exogeneity)）
（2.1）
称方程（2.1）为因变量y对自变量x1，…，xp的线性回归方程（linear regression
equation），其中 bk (k = 0，1,L, p) 是待估的未知参数（unknown parameters），
ei (i = 1,L, n) 是满足一定限制条件的无法观测的误差项（unobserved error term）。称自
则平方和分解公式又可写成：SST = SSreg + RSS ，(n1)=p+(np1)。平方和分解公式将总平方和分解为回归平方和与残差平方和两部分。总平方和
表示样本中因变量的总变异，回归平方和表示总变异中能够解释的部分，因此又称
为解释平方和，回归平方和是由样本中自变量的变异产生的，回归平方和可表示回
s2
=
n
RSS - p -1
和
1 n -1
n i =1
( yi
-
y )2
来估计 s
2
和Var( yi )
，得修正决定系数
R2 adj
=1-
RSS /(n SST /(n
p -1) - 1)
常数项时，平方和分解公式不再成立，且有可能会出现 å (yi - y)2 < å ei2 ，即