3多元线性回归与最小二乘估计

合集下载

(整理)计量经济学 第三章 多元线性回归与最小二乘估计

(整理)计量经济学  第三章  多元线性回归与最小二乘估计

第三章 多元线性回归与最小二乘估计3.1 假定条件、最小二乘估计量和高斯—马尔可夫定理1、多元线性回归模型:y t = β0 +β1x t 1 + β2x t 2 +…+ βk - 1x t k -1 + u t (3.1) 其中y t 是被解释变量(因变量),x t j 是解释变量(自变量),u t 是随机误差项,βi , i = 0, 1, … , k - 1是回归参数(通常未知)。

对经济问题的实际意义:y t 与x t j 存在线性关系,x t j , j = 0, 1, … , k - 1, 是y t 的重要解释变量。

u t 代表众多影响y t 变化的微小因素。

使y t 的变化偏离了E( y t ) = β0 +β1x t 1 + β2x t 2 +…+ βk - 1x t k -1 决定的k 维空间平面。

当给定一个样本(y t , x t 1, x t 2 ,…, x t k -1), t = 1, 2, …, T 时, 上述模型表示为 y 1 = β0 +β1x 11 + β2x 12 +…+ βk - 1x 1 k -1 + u 1,y 2 = β0 +β1x 21 + β2x 22 +…+ βk - 1x 2 k -1 + u 2, (3.2) ………..y T = β0 +β1x T 1 + β2x T 2 +…+ βk - 1x T k -1 + u T经济意义:x t j 是y t 的重要解释变量。

代数意义:y t 与x t j 存在线性关系。

几何意义:y t 表示一个多维平面。

此时y t 与x t i 已知,βj 与 u t 未知。

)1(21)1(110)(111222111111)1(21111⨯⨯-⨯---⨯⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡+⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡T T k k k T k T TjT k j k jT T u u u x x x x x x x x x y y yβββ (3.3) Y = X β + u (3.4)2假定条件为保证得到最优估计量,回归模型(3.4)应满足如下假定条件。

3多元线性回归模型

3多元线性回归模型

第三章 多元线性回归模型一、单项选择题1、决定系数2R 是指【 】A 剩余平方和占总离差平方和的比重B 总离差平方和占回归平方和的比重C 回归平方和占总离差平方和的比重D 回归平方和占剩余平方和的比重2、在由n=30的一组样本估计的、包含3个解释变量的线性回归模型中,计算的多重决定系数为0.8500,则调整后的决定系数为【 】A 0.8603B 0.8389C 0.8 655D 0.83273、设k 为模型中的参数个数,则回归平方和是指【 】 A 21)(y yn i i -∑= B 21)ˆ(i n i i yy -∑= C 21)ˆ(y yn i i -∑= D )1/()(21--∑=k y y n i i4、下列样本模型中,哪一个模型通常是无效的【 】A i C (消费)=500+0.8i I (收入)B d i Q (商品需求)=10+0.8i I (收入)+0.9i P (价格)C s i Q (商品供给)=20+0.75i P (价格)D i Y (产出量)=0.656.0i L (劳动)4.0i K (资本)5、对于iki k i i i e x x x y +++++=ββββˆˆˆˆ22110 ,统计量∑∑----)1/()ˆ(/)ˆ(22k n y y k y y i i i 服从【 】 A t(n-k) B t(n-k-1) C F(k-1,n-k) D F(k,n-k-1)6、对于iki k i i i e x x x y +++++=ββββˆˆˆˆ22110 ,检验H 0:0=i β),,1,0(k i =时,所用的统计量)ˆvar(ˆi it ββ=服从【 】A t(n-k-1)B t(n-k-2)C t(n-k+1)D t(n-k+2)7、调整的判定系数 与多重判定系数 之间有如下关系【 】A 1122---=k n n R RB 11122----=k n n R R C 11)1(122---+-=k n n R R D 11)1(122-----=k n n R R 8、用一组有30 个观测值的样本估计模型i i i i u x x y +++=22110βββ后,在0.05的显著性水平下对1β的显著性作t 检验,则1β显著地不等于零的条件是其统计量大于等于【 】 A 05.0t (30)B 025.0t (28)C 025.0t (27)D 025.0F (1,28)9、如果两个经济变量x 与y 间的关系近似地表现为当x 发生一个绝对量变动(∆x )时,y 有一个固定地相对量(∆y/y )变动,则适宜配合地回归模型是【 】A i i i u x y ++=10ββB ln i i i u x y ++=10ββC i ii u x y ++=110ββ D ln i i i u x y ++=ln 10ββ 10、对于iki k i i i e x x x y +++++=ββββˆˆˆˆ22110 ,如果原模型满足线性模型的基本假设,则在零假设j β=0下,统计量)ˆ(/ˆjj s ββ(其中s(j β)是j β的标准误差)服从【 】 A t (n-k ) B t (n-k-1) C F (k-1,n-k ) D F (k ,n-k-1)11、下列哪个模型为常数弹性模型【 】A ln i i i u x y ++=ln ln 10ββB ln i i i u x y ++=10ln ββC i i i u x y ++=ln 10ββD i ii u x y ++=110ββ 12、模型i i i u x y ++=ln 10ββ中,y 关于x 的弹性为【 】A i x 1βB i x 1βC iy 1β D i y 1β 13、模型ln i i i u x y ++=ln ln 10ββ中,1β的实际含义是【 】A x 关于y 的弹性B y 关于x 的弹性C x 关于y 的边际倾向D y 关于x 的边际倾向14、关于经济计量模型进行预测出现误差的原因,正确的说法是【 】A.只有随机因素B.只有系统因素C.既有随机因素,又有系统因素D.A 、B 、C 都不对15、在多元线性回归模型中对样本容量的基本要求是(k 为解释变量个数):【 】A n ≥k+1B n<k+1C n ≥30或n ≥3(k+1)D n ≥3016、下列说法中正确的是:【 】A 如果模型的2R 很高,我们可以认为此模型的质量较好B 如果模型的2R 较低,我们可以认为此模型的质量较差C 如果某一参数不能通过显著性检验,我们应该剔除该解释变量D 如果某一参数不能通过显著性检验,我们不应该随便剔除该解释变量 二、多项选择题1、对模型i i i i u x x y +++=22110βββ进行总体显著性检验,如果检验结果总体线性关系显著,则有【 】A 1β=2β=0B 1β≠0,2β=0C 1β≠0,2β≠0D 1β=0,2β≠0E 1β=2β≠02、剩余变差(即残差平方和)是指【 】A 随机因素影响所引起的被解释变量的变差B 解释变量变动所引起的被解释变量的变差C 被解释变量的变差中,回归方程不能作出解释的部分D 被解释变量的总变差与回归平方和之差E 被解释变量的实际值与拟合值的离差平方和3、回归平方和是指【 】A 被解释变量的实际值y 与平均值y 的离差平方和B 被解释变量的回归值yˆ与平均值y 的离差平方和 C 被解释变量的总变差与剩余变差之差D 解释变量变动所引起的被解释变量的变差E 随机因素影响所引起的被解释变量的变差4、下列哪些非线性模型可以通过变量替换转化为线性模型【 】A i i i u x y ++=210ββB i ii u x y ++=110ββ C ln i i i u x y ++=ln 10ββ D i i i u x y ++=210ββE i i i i u x y ++=ββ05、在模型ln i i i u x y ++=ln 10ββ中【 】A y 与x 是非线性的B y 与1β是非线性的C lny 与1β是线性的D lny 与lnx 是线性的E y 与lnx 是线性的三、判断题观察下列方程并判断其变量是否线性,系数是否线性,或都是或都不是。

多元线性回归模型参数的最小二乘估计

多元线性回归模型参数的最小二乘估计

x
2 ki
yi
x1i
yi
X
Y
xki yi
ˆ0
ˆ1
ˆ
ˆ k
于是正规方程组的矩阵形式为
( X X )ˆ X Y
(3.2.5)
于是有 ˆ ( X X )1 X Y (3.2.6)
二、中心化模型的参数最小二乘估计 我们已经知道,总体线性回归模型可以表示为
yi 0 1 x1i 2 x2i k xki ui (3.2.7)
u1
U
u2
un
残差平方和
1
2
n
2 i
(Y
Xˆ )(Y
Xˆ )
YY 2ˆ X Y ˆ X Xˆ
其中用到 Y Xˆ 是标量的性质。
(3.2.15)
将残差平方和(3.2.15)对 ˆ 求导,并令其为零:
( ˆ
)
2 X
Y
2 X

0
整理得正规方程组
X Xˆ X Y
(3.2.16)
这里 =0,可以看作是对参数施加一个限制条件。
其中心化模型
yi 1 x1i 2 x2i k xki ui (3.2.11)
yi ˆ1 x1i ˆ2 x2i ˆk xki i (3.2.12)
(i =1,2,…,n)
将它们写成矩阵形式:
Y X U
(3.2.13)
Y Xˆ
ˆ0 xki ˆ1 x1i xki ˆ2 x2i xki ˆk xk2i xki yi
由(3.2.3)第一个方程,可以得到:
y ˆ0 ˆ1 x1 ˆ2 x2 ˆk xk
(3.2.4)
将正规方程组写成矩阵形式:
n x1i xki

多元线性回归模型

多元线性回归模型

第二节 多元线性回归模型的参数估计
一、多元线性回归参数的最小二乘估计
二、最小二乘估计量的数值性质
三、最小二乘估计量的统计性质
四、参数的估计误差与置信区间
二 、最小二乘估计量的数值性质
ˆ ˆ ˆ 1.样本均值点在样本平面上,即Y 0 1 X 1 2 X 2
2.剩余项(残差)ei的均值为零,即 e
另外两个要求 假定8:无设定偏误,模型被正确地设定。
假定9:解释变量之间不存在完全共线性,没有精确的线性
关系。
三、多元线性回归模型的基本假定
无多重共线性假定: 各解释变量之间不存在严格的线性关系,或者说各解
释变量之间线性无关;亦即解释变量之间不存在精确的线
性关系,即是说不存在一列不全为0的数 1 , 2 , , k , 能使下式成立:


其中,残差项ei是随机扰动项ui的估计。
二 、样本线性回归模型
特别地,当K=2时,二元线性样本回归函数为
ˆ ˆ ˆ ˆ Yi 0 1 X 1i 2 X 2i
二元线性样本回归模型为:
ˆ ˆ ˆ Yi 0 1 X 1i 2 X 2i ei
2 ei ˆ X X ) 0 2X 2i Yi ( 0 1 1i 2 2i ˆ 2
e i 0 ei X 1i 0 e i X 2 i 0
2.化简得正规方程
ˆ ˆ ˆ n 0 X 1i X 2i Y i
四、参数的估计误差与置信区间
三、最小二乘估计量的统计性质
在古典线性回归模型的基本假定下,一元线性回 归模型的OLS估计量是最优线性无偏估计量,这个性

3多元线性回归模型

3多元线性回归模型

第三章 多元线性回归模型一、单项选择题1、决定系数2R 是指【 】A 剩余平方和占总离差平方和的比重B 总离差平方和占回归平方和的比重C 回归平方和占总离差平方和的比重D 回归平方和占剩余平方和的比重2、在由n=30的一组样本估计的、包含3个解释变量的线性回归模型中,计算的多重决定系数为0.8500,则调整后的决定系数为【 】A 0.8603B 0.8389C 0.8 655D 0.83273、设k 为模型中的参数个数,则回归平方和是指【 】 A 21)(y yn i i -∑= B 21)ˆ(i n i i yy -∑= C 21)ˆ(y yn i i -∑= D )1/()(21--∑=k y y n i i4、下列样本模型中,哪一个模型通常是无效的【 】A i C (消费)=500+0.8i I (收入)B d i Q (商品需求)=10+0.8i I (收入)+0.9i P (价格)C s i Q (商品供给)=20+0.75i P (价格)D i Y (产出量)=0.656.0i L (劳动)4.0i K (资本)5、对于iki k i i i e x x x y +++++=ββββˆˆˆˆ22110 ,统计量∑∑----)1/()ˆ(/)ˆ(22k n y y k y y i i i 服从【 】 A t(n-k) B t(n-k-1) C F(k-1,n-k) D F(k,n-k-1)6、对于iki k i i i e x x x y +++++=ββββˆˆˆˆ22110 ,检验H 0:0=i β),,1,0(k i =时,所用的统计量)ˆvar(ˆi it ββ=服从【 】A t(n-k-1)B t(n-k-2)C t(n-k+1)D t(n-k+2)7、调整的判定系数 与多重判定系数 之间有如下关系【 】A 1122---=k n n R RB 11122----=k n n R R C 11)1(122---+-=k n n R R D 11)1(122-----=k n n R R 8、用一组有30 个观测值的样本估计模型i i i i u x x y +++=22110βββ后,在0.05的显著性水平下对1β的显著性作t 检验,则1β显著地不等于零的条件是其统计量大于等于【 】 A 05.0t (30)B 025.0t (28)C 025.0t (27)D 025.0F (1,28)9、如果两个经济变量x 与y 间的关系近似地表现为当x 发生一个绝对量变动(∆x )时,y 有一个固定地相对量(∆y/y )变动,则适宜配合地回归模型是【 】A i i i u x y ++=10ββB ln i i i u x y ++=10ββC i ii u x y ++=110ββ D ln i i i u x y ++=ln 10ββ 10、对于iki k i i i e x x x y +++++=ββββˆˆˆˆ22110 ,如果原模型满足线性模型的基本假设,则在零假设j β=0下,统计量)ˆ(/ˆjj s ββ(其中s(j β)是j β的标准误差)服从【 】 A t (n-k ) B t (n-k-1) C F (k-1,n-k ) D F (k ,n-k-1)11、下列哪个模型为常数弹性模型【 】A ln i i i u x y ++=ln ln 10ββB ln i i i u x y ++=10ln ββC i i i u x y ++=ln 10ββD i ii u x y ++=110ββ 12、模型i i i u x y ++=ln 10ββ中,y 关于x 的弹性为【 】A i x 1βB i x 1βC iy 1β D i y 1β 13、模型ln i i i u x y ++=ln ln 10ββ中,1β的实际含义是【 】A x 关于y 的弹性B y 关于x 的弹性C x 关于y 的边际倾向D y 关于x 的边际倾向14、关于经济计量模型进行预测出现误差的原因,正确的说法是【 】A.只有随机因素B.只有系统因素C.既有随机因素,又有系统因素D.A 、B 、C 都不对15、在多元线性回归模型中对样本容量的基本要求是(k 为解释变量个数):【 】A n ≥k+1B n<k+1C n ≥30或n ≥3(k+1)D n ≥3016、下列说法中正确的是:【 】A 如果模型的2R 很高,我们可以认为此模型的质量较好B 如果模型的2R 较低,我们可以认为此模型的质量较差C 如果某一参数不能通过显著性检验,我们应该剔除该解释变量D 如果某一参数不能通过显著性检验,我们不应该随便剔除该解释变量 二、多项选择题1、对模型i i i i u x x y +++=22110βββ进行总体显著性检验,如果检验结果总体线性关系显著,则有【 】A 1β=2β=0B 1β≠0,2β=0C 1β≠0,2β≠0D 1β=0,2β≠0E 1β=2β≠02、剩余变差(即残差平方和)是指【 】A 随机因素影响所引起的被解释变量的变差B 解释变量变动所引起的被解释变量的变差C 被解释变量的变差中,回归方程不能作出解释的部分D 被解释变量的总变差与回归平方和之差E 被解释变量的实际值与拟合值的离差平方和3、回归平方和是指【 】A 被解释变量的实际值y 与平均值y 的离差平方和B 被解释变量的回归值yˆ与平均值y 的离差平方和 C 被解释变量的总变差与剩余变差之差D 解释变量变动所引起的被解释变量的变差E 随机因素影响所引起的被解释变量的变差4、下列哪些非线性模型可以通过变量替换转化为线性模型【 】A i i i u x y ++=210ββB i ii u x y ++=110ββ C ln i i i u x y ++=ln 10ββ D i i i u x y ++=210ββE i i i i u x y ++=ββ05、在模型ln i i i u x y ++=ln 10ββ中【 】A y 与x 是非线性的B y 与1β是非线性的C lny 与1β是线性的D lny 与lnx 是线性的E y 与lnx 是线性的三、判断题观察下列方程并判断其变量是否线性,系数是否线性,或都是或都不是。

3多元线性回归模型参数估计

3多元线性回归模型参数估计

3多元线性回归模型参数估计多元线性回归是一种用于预测多个自变量与因变量之间关系的统计模型。

其模型形式为:Y=β0+β1X1+β2X2+...+βnXn+ε,其中Y是因变量,X1、X2、..、Xn是自变量,β0、β1、β2、..、βn是模型的参数,ε是误差项。

多元线性回归模型参数的估计可以使用最小二乘法(Ordinary Least Squares,OLS)来进行。

最小二乘法的基本思想是找到一组参数估计值,使得模型预测值与实际观测值之间的平方差最小。

参数估计过程如下:1.根据已有数据收集或实验,获取因变量Y和自变量X1、X2、..、Xn的观测值。

2.假设模型为线性关系,即Y=β0+β1X1+β2X2+...+βnXn+ε。

3.使用最小二乘法,计算参数估计值β0、β1、β2、..、βn:对于任意一组参数估计值β0、β1、β2、..、βn,计算出模型对于所有观测值的预测值Y'=β0+β1X1+β2X2+...+βnXn。

计算观测值Y与预测值Y'之间的平方差的和,即残差平方和(RSS,Residual Sum of Squares)。

寻找使得RSS最小的参数估计值β0、β1、β2、..、βn。

4.使用统计方法计算参数估计值的显著性:计算回归平方和(Total Sum of Squares, TSS)和残差平方和(Residual Sum of Squares, RSS)。

计算决定系数(Coefficient of Determination, R^2):R^2 = (TSS - RSS) / TSS。

计算F统计量:F=(R^2/k)/((1-R^2)/(n-k-1)),其中k为自变量的个数,n为观测值的个数。

根据F统计量的显著性,判断多元线性回归模型是否合理。

多元线性回归模型参数估计的准确性和显著性可以使用统计假设检验来判断。

常见的参数估计的显著性检验方法包括t检验和F检验。

t检验用于判断单个参数是否显著,F检验用于判断整个回归模型是否显著。

多元线性回归模型的参数估计

多元线性回归模型的参数估计
加权最小二乘法(WLS)
在最小二乘法基础上,对不同的观测值赋予不同的权重,以调整其 对回归参数估计的影响。
广义最小二乘法(GLS)
考虑自变量之间的相关性,通过转换自变量和因变量来消除自变量 之间的多重共线性影响。
03
参数估计的方法
普通最小二乘法
最小二乘法是一种常用的参数估计方法,通过最小化误差 平方和来估计参数。在多元线性回归模型中,普通最小二 乘法通过求解线性方程组来得到参数的估计值。
模型选择
选择多元线性回归模型作 为预测模型,以商品价格 和用户评价作为自变量, 销量作为因变量。
参数估计
使用最小二乘法进行参数 估计,通过最小化误差平 方和来求解回归系数。
模型检验
对模型进行假设检验,确 保满足线性回归的前提假 设。
结果解释与模型评估
结果解释
根据回归系数的大小和符号,解释各自变量对因变量 的影响程度和方向。
05
参数估计的实例分析
数据来源与预处理
数据来源
数据来源于某大型电商平台的销售数据,包括商 品价格、销量、用户评价等。
数据清洗
对原始数据进行清洗,去除异常值、缺失值和重 复值,确保数据质量。
数据转换
对连续变量进行离散化处理,对分类变量进行独 热编码,以便进行回归分析。
模型建立与参数估计
01
02
03
THANKS
感谢观看
04
参数估计的步骤
确定模型形式
确定自变量和因变

首先需要确定回归模型中的自变 量和因变量,通常因变量是研究 的响应变量,自变量是对响应变 量有影响的预测变量。
确定模型的形式
根据自变量和因变量的关系,选 择合适的回归模型形式,如线性 回归、多项式回归等。

多元线性回归分析的参数估计方法

多元线性回归分析的参数估计方法

多元线性回归分析的参数估计方法多元线性回归是一种常用的数据分析方法,用于探究自变量与因变量之间的关系。

在多元线性回归中,参数估计方法有多种,包括最小二乘估计、最大似然估计和贝叶斯估计等。

本文将重点讨论多元线性回归中的参数估计方法。

在多元线性回归中,最常用的参数估计方法是最小二乘估计(Ordinary Least Squares,OLS)。

最小二乘估计是一种求解最优参数的方法,通过最小化残差平方和来估计参数的取值。

具体而言,对于给定的自变量和因变量数据,最小二乘估计方法试图找到一组参数,使得预测值与观测值之间的残差平方和最小。

这样的估计方法具有几何和统计意义,可以用来描述变量之间的线性关系。

最小二乘估计方法有一系列优良的性质,比如无偏性、一致性和有效性。

其中,无偏性是指估计值的期望等于真实参数的值,即估计值不会出现系统性的偏差。

一致性是指当样本容量趋近无穷时,估计值趋近于真实参数的值。

有效性是指最小二乘估计具有最小的方差,即估计值的波动最小。

这些性质使得最小二乘估计成为了多元线性回归中最常用的参数估计方法。

然而,最小二乘估计方法在面对一些特殊情况时可能会出现问题。

比如,当自变量之间存在多重共线性时,最小二乘估计的解不存在或不唯一。

多重共线性是指自变量之间存在较高的相关性,导致在估计回归系数时出现不稳定或不准确的情况。

为了解决多重共线性问题,可以采用一些技术手段,如主成分回归和岭回归等。

另外一个常用的参数估计方法是最大似然估计(Maximum Likelihood Estimation,MLE)。

最大似然估计方法试图找到一组参数,使得给定样本观测值的条件下,观测到这些值的概率最大。

具体而言,最大似然估计方法通过构建似然函数,并对似然函数求导,找到能够最大化似然函数的参数取值。

最大似然估计方法在一定条件下具有良好的性质,比如一致性和渐近正态分布。

但是,在实际应用中,最大似然估计方法可能存在计算复杂度高、估计值不唯一等问题。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1.3 多元线性回归与最小二乘估计1.假定条件、最小二乘估计量和高斯—马尔可夫定理 多元线性回归模型:y t = β0 +β1x t 1 + β2x t 2 +…+ βk - 1x t k -1 + u t , (1.1)其中y t 是被解释变量(因变量),x t j 是解释变量(自变量),u t 是随机误差项,βi , i = 0, 1, … , k - 1是回归参数(通常未知)。

对经济问题的实际意义:y t 与x t j 存在线性关系,x t j , j = 0, 1, … , k - 1, 是y t 的重要解释变量。

u t 代表众多影响y t 变化的微小因素。

使y t 的变化偏离了E( y t ) = β0 +β1x t 1 + β2x t 2 +…+ βk - 1x t k -1 决定的k 维空间平面。

当给定一个样本(y t , x t 1, x t 2 ,…, x t k -1), t = 1, 2, …, T 时, 上述模型表示为 y 1 = β0 +β1x 11 + β2x 12 +…+ βk - 1x 1 k -1 + u 1, 经济意义:x t j 是y t 的重要解释变量。

y 2 = β0 +β1x 21 + β2x 22 +…+ βk - 1x 2 k -1 + u 2, 代数意义:y t 与x t j 存在线性关系。

……….. 几何意义:y t 表示一个多维平面。

y T = β0 +β1x T 1 + β2x T 2 +…+ βk - 1x T k -1 + u T , (1.2) 此时y t 与x t i 已知,βj 与 u t 未知。

)1(21)1(110)(111222111111)1(21111⨯⨯-⨯---⨯⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡+⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡T T k k k T k T TjT k j k jT T u u u x x x x x x x x x y y yβββ (1.3)Y = X β + u , (1.4) 为保证得到最优估计量,回归模型(1.4)应满足如下假定条件。

假定 ⑴ 随机误差项u t 是非自相关的,每一误差项都满足均值为零,方差 σ2相同且为有限值,即E(u ) = 0 = ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡00 , Var (u ) = E(uˆu ˆ' ) = σ 2I = σ 2⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡10000001 假定 ⑵ 解释变量与误差项相互独立,即 E(X 'u ) = 0假定 ⑶ 解释变量之间线性无关。

rk(X 'X ) = rk(X ) = k 其中rk (⋅)表示矩阵的秩。

假定⑷ 解释变量是非随机的,且当T → ∞ 时T – 1X 'X → Q其中Q 是一个有限值的非退化矩阵。

最小二乘 (OLS) 法的原理是求残差(误差项的估计值)平方和最小。

代数上是求极值问题。

min S = (Y - X βˆ)' (Y - X βˆ) = Y 'Y -βˆ'X 'Y - Y ' X βˆ +βˆ'X 'X βˆ = Y 'Y - 2βˆ'X 'Y + βˆ'X 'X βˆ (1.5) 因为Y 'X βˆ是一个标量,所以有Y 'X βˆ = βˆ'X 'Y 。

(1.5) 的一阶条件为: βˆ∂∂S = - 2X 'Y + 2X 'X βˆ= 0 (1.6) 化简得X 'Y = X 'X βˆ 因为 (X 'X ) 是一个非退化矩阵(见假定⑶),所以有βˆ= (X 'X )-1 X 'Y (1.7) 因为X 的元素是非随机的,(X 'X ) -1X 是一个常数矩阵,则βˆ是Y 的线性组合,为线性估计量。

求出βˆ,估计的回归模型写为 Y = X βˆ+ u ˆ (1.9) 其中βˆ= (0ˆβ 1ˆβ … 1ˆ-k β)' 是 β 的估计值列向量,u ˆ= (Y - X βˆ) 称为残差列向量。

因为 uˆ = Y - X βˆ= Y - X (X 'X )-1X 'Y = [I - X (X 'X )-1 X ' ]Y (1.10) 所以uˆ也是Y 的线性组合。

βˆ的期望和方差是 E(βˆ) = E[(X 'X )-1 X 'Y ] = E[(X 'X )-1X '(X β + u )] = β + (X 'X )-1X ' E(u ) = β (1.11)Var(βˆ) = E[(βˆ–β) (βˆ–β)']= E[(X 'X )-1X ' u u ' X (X 'X )-1] = E[(X 'X )-1X ' σ 2I X (X 'X )-1] = σ 2 (X 'X )-1 (1.12)高斯—马尔可夫定理:若前述假定条件成立,OLS 估计量是最佳线性无偏估计量。

βˆ具有无偏性。

βˆ具有最小方差特性。

βˆ具有一致性,渐近无偏性和渐近有效性。

2. 残差的方差s 2 = uˆ'u ˆ/ (T - k ) (1.13) s 2是σ 2的无偏估计量,E(s 2 ) =σ 2。

βˆ的估计的方差协方差矩阵是 ∧Var (βˆ) = s 2 (X 'X )-1 (1.14) 3. 多重确定系数(多重可决系数)Y = X βˆ+u ˆ=Y ˆ+u ˆ (1.15) 总平方和SST =∑=-Tt t y y 12)(= Y 'Y - T 2y , (1.16)其中y 是y t 的样本平均数,定义为y = T y Tt t /)(1∑=。

回归平方和为SSR =∑=-Tt t y y12)ˆ( = Y ˆ'Y ˆ- T 2y (1.17) 其中y 的定义同上。

残差平方和为SSE =∑=-Tt t t y y 12)ˆ( = ∑=Tt t u12ˆ = u ˆ'u ˆ (1.18) 则有如下关系存在,SST = SSR + SSE (1.19)R 2= 22ˆˆy T y T SST SSR -Y Y Y 'Y '-= (1.20) 显然有0 ≤ R 2 ≤ 1。

R 2 →1,拟合优度越好。

4. 调整的多重确定系数当解释变量的个数增加时,通常R 2不下降,而是上升。

为调整因自由度减小带来的损失,又定义调整的多重确定系数2R 如下:2R = 1 -))(1(1)1/()/(SST SSR SST k T T T SST k T SSE ----=-- = 1 - )1(12R kT T --- (1.21)5. OLS 估计量的分布若u ~ N (0, σ 2I ) ,则每个u t 都服从正态分布。

于是有Y ~ N (X β, σ 2I ) (1.22)因βˆ也是u 的线性组合(见公式1.7),依据(1.11)和(1.12)有βˆ ~ N ( β, σ2(X 'X )-1 ) (1.23) 6. 方差分析与F 检验与SST 相对应,自由度T -1也被分解为两部分,(T -1)= (k -1) + (T - k ) (1.24)回归均方定义为MSR =1-k SSR ,误差均方定义为MSE = kT SSE- 表1.1 方差分析表方差来源 平方和自由度 均方 回归 SSR =Yˆ'Y ˆ-T y 2 k -1 MSR = SSR / (k -1) 误差 SSE = uˆ'u ˆ T -k MSE = SSE / (T -k ) 总和SST = Y 'Y - T y 2T -1H 0: β1= β2 = … = βk -1 = 0; H 1: βj 不全为零F =MSEMSR = )/()1/(k T SSE k SSR -- ~ F (k -1,T -k ) (1.25)设检验水平为α,则检验规则是,若 F ≤ F α (k -1,T -k ),接受H 0;若 F > F α (k -1,T -k ) , 拒绝H 0。

0 F α (k -1, T -k ) -t α(T-k) 0 t α(T-k)F 检验示意图 t 检验示意图7.t 检验H 0:βj = 0, (j = 1, 2, …, k -1), H 1:βj ≠ 0 t =)ˆ(ˆjj s ββ=1121)'(ˆ)ˆ(ˆ+-+=j jj j s Var X X βββ~ t (T -k ) (1.26)判别规则:若∣ t ∣≤ t α(T -k ) 接受H 0;若∣ t ∣> t α(T -k ) 拒绝H 0。

8.βi 的置信区间(1) 全部βi 的联合置信区间接受F =k1(β -βˆ)' (X 'X ) (β -βˆ) / s 2 ~ F α (k , T -k ) (1.27) ( β -βˆ)' (X 'X ) ( β -βˆ) ≤ s 2 k F α (k , T -k ),它是一个k 维椭球。

(1.28) (2) 单个βi 的置信区间βi = i βˆ±1+j v s t α/2(T -k ) . (1.29)9.预测(1)点预测C = (1 x T +1 1 x T +1 2 … x T +1 k -1 ) (1.30) 则T + 1期被解释变量y T +1的点预测式是,1ˆ+T y= C βˆ=βˆ0 +βˆ1 x T +1 1 + … +βˆ k -1 x T +1 k -1(1.31)(2)E (y T +1) 的置信区间预测首先求点预测式C βˆ的抽样分布 E (1ˆ+T y) = E (C βˆ) = C β (1.32) Var (1ˆ+T y) = Var (C βˆ) = E[(C βˆ- C β ) (C βˆ- C β ) ' ] = E[C (βˆ- β ) [C (βˆ- β )] ' ]= C E[(βˆ- β ) (βˆ- β ) ' ]C ' = C Var (βˆ)C '= C σ2 (X 'X )-1C ' = σ2 C (X 'X )-1C ' , (1.33)因为βˆ服从多元正态分布,所以C βˆ也是一个多元正态分布变量,即 1ˆ+T y= C βˆ~ N (C β, σ2C (X 'X ) -1C ') (1.34) 构成 t 分布统计量如下t =')'()ˆ(ˆ111C X X C -++-s y E yT T =')'(ˆ1C X X C C C --s ββ ~ t (T -k ) (1.35)置信区间 C βˆ± t α/2 (1, T -k ) s ')'(1C X X C - (1.36) (3) 单个y T +1的置信区间预测y T +1值与点预测值1ˆ+T y有以下关系 y T +1 = 1ˆ+T y+ u T +1 (1.37) 其中u T +1是随机误差项。

相关文档
最新文档