第三章-K元线性回归模型

合集下载

多元线性回归模型

多元线性回归模型

第三章多元线性回归模型一、名词解释1、多元线性回归模型:在现实经济活动中往往存在一个变量受到其他多个变量影响的现象,表现在线性回归模型中有多个解释变量,这样的模型被称做多元线性回归模型,多元是指多个解释变量2、调整的可决系数R2:又叫调整的决定系数,是一个用于描述多个解释变量对被解释变量的联合影响程2 2-2 2 门度的统计量‘克服了R随解释变量的增加而增大的缺陷,与R的矢系为R2=1 -(1 -R2)-n — k —1 3、偏回归系数:在多元回归模型中,每一个解释变量前的参数即为偏回归系数,它测度了当其他解释变量保持不变时,该变量增加1单位对被解释变量带来的平均影响程度。

4、正规方程组:采用OLS方法估计线性回归模型时,对残差平方和矢于各参数求偏导,并令偏导数为0后得到的方程组,其矩阵形式为XX A XYo5、方程显著1•生检验:是针对所有解释变量对被解释变量的联合影响是否显著所作的检验,旨在对模型中被解释变量与解释变量之间的线性矢系在总体上是否显著成立作岀判断。

、单项选择题1、C : F统计量的意义2、A: F统计量的定义22 Z ei3、B :随机误差项方差的估计值:? ・n _k_14、A :书上P92和P93公式5、C: A参看导论部分内容;B在判断多重共线等问题的时候,很有必要;D在相同解释变量情况下可以衡量6、C :书上P99,比较F统计量和可决系数的公式即可7、A :书P818、D : A截距项可以不管它;B不考虑betaO ;C相矢矢系与因果矢系的辨析9、B :注意!只是在服从基本假设的前提下,统计量才服从相应的分布10、 D : AB不能简单通过可决系数判断模型好坏,还要考虑样本量、异方差等问题;三、多项选择题1、ACDE :概念性2、BD :概念性3、BCD :总体显著,则至少一个参数不为04、BC :参考可决系数和F统计量的公式5、AD :考虑极端情况,ESS=O,可发现CE错四、判断题、1 ' " 2、” 3 > X 4 > X:调整的可决系数5、”五、简答题1、答:多元线性回归模型与一元线性回归模型的区别表现在如下几个方面:一是解释变量的个数不同;二是模型的经典假设不同,多元线性回归模型比一元线性回归模型多了个“解释变量之间不存在线性相矢尖系”的假定:三是多元线性回归模型的参数估计式的表达更为复杂。

第三章 一元线性回归模型

第三章  一元线性回归模型

第三章 一元线性回归模型一、预备知识(一)相关概念对于一个双变量总体,若由基础理论,变量和变量之间存在因果),(i i x y x y 关系,或的变异可用来解释的变异。

为检验两变量间因果关系是否存在、x y 度量自变量对因变量影响的强弱与显著性以及利用解释变量去预测因变量x y x ,引入一元回归分析这一工具。

y 将给定条件下的均值i x i yi i i x x y E 10)|(ββ+=(3.1)定义为总体回归函数(PopulationRegressionFunction,PRF )。

定义为误差项(errorterm ),记为,即,这样)|(i i i x y E y -i μ)|(i i i i x y E y -=μ,或i i i i x y E y μ+=)|(i i i x y μββ++=10(3.2)(3.2)式称为总体回归模型或者随机总体回归函数。

其中,称为解释变量x (explanatory variable )或自变量(independent variable );称为被解释y 变量(explained variable )或因变量(dependent variable );误差项解释μ了因变量的变动中不能完全被自变量所解释的部分。

误差项的构成包括以下四个部分:(1)未纳入模型变量的影响(2)数据的测量误差(3)基础理论方程具有与回归方程不同的函数形式,比如自变量与因变量之间可能是非线性关系(4)纯随机和不可预料的事件。

在总体回归模型(3.2)中参数是未知的,是不可观察的,统计计10,ββi μ量分析的目标之一就是估计模型的未知参数。

给定一组随机样本,对(3.1)式进行估计,若的估计量分别记n i y x i i ,,2,1),,( =10,),|(ββi i x y E 为,则定义3.3式为样本回归函数^1^0^,,ββi y ()i i x y ^1^0^ββ+=n i ,,2,1 =(3.3)注意,样本回归函数随着样本的不同而不同,也就是说是随机变量,^1^0,ββ它们的随机性是由于的随机性(同一个可能对应不同的)与的变异共i y i x i y x 同引起的。

第三章 多元线性回归模型

第三章 多元线性回归模型


Y Xb U
X 称为数据矩阵或设计矩阵。
6
二、古典假定
假定1:零均值假定 E(ui ) 0 (i 1,2,...,n)
1 E ( 1 ) E ( ) 2 2 E (μ) E 0 n E ( n )
写成矩阵形式:
Y1 1 X 21 Y 1 X 22 2 Yn 1 X 2 n X 31 X k 1 b 1 u1 X 32 X k 2 b 2 u 2 X 3 n X kn b k un

ei 1 X 21 X e 1 X 22 2i i X ki ei 1 X 2 n X 31 X k 1 e1 X 32 X k 2 e2 X e 0 X 3 n X kn en
9
当总体观测值难于得到时,回归系数向 量 b 是未知的,这时可以由样本观测值进行 估计,可表示为
ˆ ˆ Xb Y
但实际观测值与计算值有偏差,记为:
ˆ e Y Y
于是
ˆ e Y Xb
称为多元样本回归函数。
10
ˆ b 1 ˆ b2 ˆ b ˆ b k
同理
ˆ x x b ˆ x 2 x3 i yi b 2 2i 3i 3 3i
x2 i yi x x3 i yi x2 i x3 i ˆ b2 2 2 2 x2 x ( x x ) i 3i 2i 3i
2 3i
x3 i yi x x2 i yi x2 i x3 i ˆ b3 2 2 2 x2 x ( x x ) i 3i 2i 3i

多元线性回归模型(6)

多元线性回归模型(6)
k个解释变量的多元线性回归模型的 个n观测
样本,可表示为
Y1 1 2 X 21 3 X31 ... k X k1 u1 Y2 1 2 X 22 3 X32 ... k X k2 u2
Yn 1 2 X 2n 3 X3n ... k X kn un
11
用矩阵表示
Y1 1
即 X可X逆
假定6:正态性假定 ui ~ N(0,σ2)
15
第二节 多元线性回归模型的估计
本节基本内容:
● 普通最小二乘法(OLS) ● OLS估计式的性质 ● OLS估计的分布性质
● 随机扰动项方差 的估2 计
● 回归系数的区间估计
16
一、普通最小二乘法(OLS)
最小二乘原则
剩余平方和最小: min ei2 (Yi -Yˆi)2
1 X 22
X kiei
X
k1
Xk2
1 e1
0
X
2n
e2
=
XБайду номын сангаас
e
=
0
X
kn
en
0
X
e
因为样本回归函数为 Y = Xβˆ + e
两边乘 X有 :
X Y = X Xβˆ + X e
因为 Xe,= 0则正规方程为:
X Xβˆ = X Y
19
OLS估计式
由正规方程 多元回归中 二元回归中
或取固定值的矩阵
2.无偏特性:
E(βˆk ) βk
21
3. 最小方差特性
在 βk所有的线性无偏估计中,OLS估计 β具ˆk 有
最小方差
结论:在古典假定下,多元线性回归的 OLS估计 式是最佳线性无偏估计式(BLUE)

第3章 多元线性回归模型 《计量经济学》PPT课件

第3章 多元线性回归模型  《计量经济学》PPT课件

于是:
βˆ
ˆ1 ˆ 2
0.7226 0.0003
0.0003 1.35E 07
15674 39648400
01.0737.71072
⃟ 正规方程组 的另一种写法
对于正规方程组 XY XXβˆ
XXβˆ Xe XXβˆ
于是 Xe 0 (*)

ei 0
(**)
X jiei 0
i
(*) 或( ** )是多元线性回归模型正规方程 组的另一种写法。
第三章 经典单方程计量经济学模型: 多元线性回归模型
• 多元线性回归模型 • 多元线性回归模型的参数估计 • 多元线性回归模型的统计检验 • 多元线性回归模型的预测 • 回归模型的其他形式
§ 3. 1 多元线性回归模型
一、多元线性回归模型 二、多元线性回归模型的基本假定
一、多元线性回归模型
多元线性回归模型 : 表现在线性回归模型 中的解释变量有多个。
的秩 =k+1 ,即 X 满秩。
假设 2. 随机误差项零均值,同方差。
0
0
0
E

μ
)
E
1
n
1
n
E
12
n 1
1 n
2 n
var(1 ) cov(1, n ) 2 0
2I
cov(
n
,
1
)
var(n )
0
2
i E(i )
βˆ (xx)1 xY
ˆ0 Y ˆ1 X 1 ˆk X k
⃟ 随机误差项的方差的无偏估计
可以证明,随机误差项的方差的无偏 估计量为:
ˆ 2
ei2 n k 1
ee n k 1

回归模型介绍

回归模型介绍

X K1
X
K
2

...
X
Kn

0
1



2
,
...


K

u1
u


u2 ... un

由于总体回归模型的参数 0, 1, , k 都是未知 的,我们可以利用样本观测值对它们进行估计, 得到相应的估计的回归方程
ˆ (xx)1 xy
3随机误差项的方差 2 的估计量 2 的无偏估计量是
ˆ 2
ei 2
n (K 1)
这是因为我们在估计 β 0 ,β1 ,...β k 的过程 中,失去了(K+1)个自由度。
2019/12/21
中山学院经济与管理系
21
3.3最小二乘估计量的特性
(5)解释变量X1,X2,…,Xk之间不存在精确的(完 全的)线性关系,即rank(X)=k+1<n
观测值的数目要大于待估计的参数的个数 (要有足够数量的数据来拟合回归线)。
(6)随机误差项服从正态分布,即
ui ~ N (0, 2 ) i=1,2,…,n
3.2.最小二乘法
我们的多元线性回归模型是:
1 线性性 2 无偏性 3 最小方差性(有效性) 高斯-马尔科夫(Gauss-Markov)定理:
对于 Y Xβ u 以及标准假设条件(1)
-(5),普通最小二乘估计量是最佳线性无偏 估计量(BLUE)
2019/12/21
中山学院经济与管理系
22
3.4 可决系数
一.可决系数 对于一元线性回归模型
亿美元(1个billion),食品消费支出增加1.12亿 元(0.112个 billion)。

4 K元线性回归模型

4 K元线性回归模型
K 元回归模型
Yi 0 1 X i1 2 X i 2 ... k X ik ui (i 1,2,...n)
预测点 f 则
X f (1, X f 1 , ... , X fk )
Y f 0 1 X f 1 2 X f 2 ... k X fk u f X f uf
2 u (X X ) 1
取出方差部分
Var(b) ( X X)
2 u
2 为 u (X X ) 1的主对角线元素
1 ii
证明 最小方差性
设b*为任意的线性无偏估计式
b* [( X X ) 1 X c] Y
c为任意(k+1)×n阶非随机矩阵, 将 Y X u 代入上式
E( X u X ) 2 E(u) 2
I
2 u
无自相关
Cov(ui , u j ) 0
(i≠j, i,j=1,2,…,n)
三、k元线性回归模型的估计 1、模型的OLS估计
Y b0 b1 X 1 b2 X 2 ... bk X k e
ˆ E(Y ) b b X b X ... b X Y 0 1 1 2 2 k k
式中L 是对数似然值, n 是样本容量, k是被估计的参数个数. 该准则要求AIC取值越小越好. L越大, k越小, AIC越小.
SC (Schwarz Criterion): 施瓦茨准则
2 L k ln n SC n n
与AIC 的用法和特点一致.SC越小越好.
2、最小二乘估计量(OLSE)的性质
1 n 2 ˆ ( Y Y ) i i n i 1 1 n 2 1 n ˆ2 Yi Yi n i 1 n i 1

3第三章多元线性回归模型分析(一)

3第三章多元线性回归模型分析(一)

x1 K x2K x nK
T
y1 y2 y n
将上述矩阵方程的第一个方程表示出来,则有: b1 n n n b 2 n x i1 x i 2 x iK y i i 1 i 1 i 1 i 1 b K 根据数据的样本均值定义,则有:
在研究中,我们根本无法了解式(1)所示的总体 模型的特征,而只能通过样本特征来近似考察。 设经过n次试验,得到n个样本,如下所示: y1 y2 yn x11 x12 … x1 k x21 x22 … x2 k …… x n1 x n2 … x nk
从而得到表达式如下: Yi= xi11 + xi22 +…+ xik k + i (2) 其中,式(1)称为总体线性模型;式(2)称为 样本线性模型。



Q Y Y 2 β X Y β X X β



(ee) β

0
用向量展开或矩阵微分法(前导不变后导转置),我们可得到关 于待估参数估计值的正规方程组:
X X β X Y
与采用标量式推导所得结果相同。因为x是满秩的(假设2) ,所以(X ‘X)-1存在。所以,得到的估计为
X

X
ikYi
按矩阵形式,上述方程组可表示为:

X

2 X i1
... ... ... ...

... ...
iK X i1


ˆ X i1 X iK β1 X 11 ˆ ... β2 X 12 = ... ... ... 2 ˆ X iK βk X 1K
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第三章 K 元线性回归模型一、填空题1. 对于模型i ik k i i i u X X X Y +++++=ββββΛ22110,i=1,2,…,n ,一般经验认为,满足模型估计的基本要求的样本容量为_ _2. 对于总体线性回归模型i i i i i u X X X Y ++++=3322110ββββ,运用最小二乘法欲得到参数估计量,所要求的最小样本容量n 应满足 或至少_________。

3. 多元线性计量经济学模型的矩阵形式 ,对应的样本线性回归模型的矩阵形式 ,模型的最小二乘参数估计量 及其方差估计量 。

4. 总平方和可以分解为 回归平方和 和 残差平方和 ,可决系数为 。

5. 多元回归方程中每个解释变量的系数β(偏回归系数),指解释变量变化一个单位引起的被解释变量平均变化 β 个单位。

6. 线性模型的含义,就变量而言,指的是回归模型变量的 ;就参数而言,指的是回归模型中参数的 。

通常线性回归模型指的是 。

二、问答题1. 什么是多元回归模型?它与一元、二元回归模型有何区别? 2. 极大似然法(maximum likehood )的原理是什么? 3. 什么是拟合优度(R 2)检验?有什么作用?指对样本回归直线与样本观测值之间的拟合程度的检验。

4. 可决系数R 2低的可能的原因是什么?5. 多元回归的判断系数R 2具有什么性质?运用R 2时应注意什么问题?6. 多元线性回归模型的基本假设是什么?试说明在证明最小二乘估计量的无偏性和有效性的过程中,哪些基本假设起了作用? 7. 说明区间估计的含义。

三、实践题1.下表给出三变量模型的回归结果:方差来源 平方和(SS )自由度(d.f.)均方差(MSS) 回归平方和(ESS) 65965 3 21988.33残差平方和(RSS) 77 11 7 总平方和(TSS)66042144717.48要求:(1)样本容量是多少? (2)求RSS ?(3)ESS 和RSS 的自由度各是多少? (4)求2R 和2R ?(5)检验假设:1X 和2X 对Y 无影响。

你用什么假设检验?为什么? (6)根据以上信息,你能否确定1X 和2X 各自对Y 的贡献吗?2.下面给出依据15个观察值计算得到的数据,其中小写字母代表了各值与其样本均值的离差。

693.367=Y , 760.4021=X ,0.82=X ,269.660422=∑i y096.8485521=∑ix,0.28022=∑ix,346.747781=∑ii xy9.42502=∑ii xy ,0.479621=∑ii x x要求:(1)估计三个多元回归系数;(2)估计它们的标准差;并求出2R 与2R ?(3)估计1β、2β95%的置信区间;(4)在%5=α下,检验估计的每个回归系数的统计显著性(双尾检验);(5)给出方差分析表。

(1)3.考虑以下方程(括号内为估计标准差):19=n ,873.02=R(0.658) (0.072) (0.080) 560.2004.0364.0562.8ˆ1tt t i U P P W -++=-其中:W —t 年的每位雇员的工资和薪水;P —t 年的物价水平;U —t 年的失业率。

要求:(1)对个人收入估计的斜率系数进行假设检验;(2)讨论1-t P 在理论上的正确性,对本模型的正确性进行讨论;1-t P 是否应从方程中删除?为什么?4.克莱因和戈德伯格曾用1921-1941年与1945-1950年(1942-1944年战争期间略去)美国国内消费C 和工资收入W 、非工资—非农业收入P 、农业收入A 的共27年时间序列资料,利用普通最小二乘法估计得出了下列回归方程:(1.09)(0.452) (0.17) (8.92) 121.0452.0059.1133.8t t t t A P W C +++=,107.37F ,95.02==R式中括号中的数字为相应参数估计量的标准误。

试对该模型进行评价,指出其中存在的问题。

(显著性水平%5=α,已知069.2)23( t ,03.3)23,3(0.02505.0==F )5.某地区通过一个样本容量为722的调查数据得到劳动力受教育的一个回归方程为fedu medu sibs edu 210.0131.0094.036.10++-=,R 2=0.214式中,edu 为劳动力受教育年数,sibs 为该劳动力家庭中兄弟姐妹的个数,medu 与fedu 分别为母亲与父亲受到教育的年数。

问(1)sibs 是否具有预期的影响?为什么?若medu 与fedu 保持不变,为了使预测的受教育水平减少一年,需要sibs 增加多少?(2)请对medu 的系数给予适当的解释。

(3)如果两个劳动力都没有兄弟姐妹,但其中一个的父母受教育的年数为12年,另一个的父母受教育的年数为16年,则两人受教育的年数预期相差多少?6.以企业研发支出(R&D )占销售额的比重为被解释变量(Y ),以企业销售额(X1)与利润占销售额的比重(X2)为解释变量,一个有32个企业的样本估计结果如下:099.0,)046.0()22.0()37.1(05.0)log(32.0472.0221=++=R X X Y其中括号中为系数估计值的标准差。

(1)解释log(X1)的系数。

如果X1增加10%,估计Y 会变化多少个百分点?这在经济上是一个很大的影响吗?(2)针对R&D 强度随销售额的增加而提高这一备择假设,检验它不虽X1而变化的假设。

分别在5%和10%的显著性水平上进行这个检验。

(3)利润占销售额的比重X2对R&D 强度Y 是否在统计上有显著的影响?(3)对X2,参数估计值的t 统计值为0.05/0.46=1.087,它比在10%的显著性水平下的临界值还小,因此可以认为它对Y 在统计上没有显著的影响。

7.下表为有关经批准的私人住房单位及其决定因素的4个模型的估计量和相关统计值(括号内为p-值)(如果某项为空,则意味着模型中没有此变量)。

数据为美国40个城市的数据。

模型如下:μββββββββ++++++++=statetax localtax unemp popchangincome value density g hou 76543210sin式中housing ——实际颁发的建筑许可证数量,density ——每平方英里的人口密度,value ——自由房屋的均值(单位:百美元),income ——平均家庭的收入(单位:千美元),popchang ——1980~1992年的人口增长百分比,unemp ——失业率,localtax ——人均交纳的地方税,statetax ——人均缴纳的州税 变量 模型A 模型B 模型C 模型D C 813 (0.74) -392 (0.81) -1279 (0.34) -973 (0.44) Density0.075 (0.43)0.062 (0.32)0.042 (0.47)Value -0.855 (0.13) -0.873 (0.11) -0.994 (0.06) -0.778 (0.07) Income 110.41 (0.14) 133.03 (0.04) 125.71 (0.05) 116.60 (0.06) Popchang 26.77 (0.11) 29.19 (0.06) 29.41 (0.001) 24.86 (0.08) Unemp -76.55 (0.48) Localtax -0.061 (0.95)Statetax -1.006 (0.40) -1.004 (0.37) RSS 4.763e+7 4.843e+7 4.962e+7 5.038e+7 R 20.349 0.338 0.322 0.312 e S1.488e+6 1.424e+6 1.418e+6 1.399e+6 AIC1.776e+61.634e+61.593e+61.538e+6(1)检验模型A 中的每一个回归系数在10%水平下是否为零(括号中的值为双边备择p-值)。

根据检验结果,你认为应该把变量保留在模型中还是去掉?(2)在模型A 中,在10%水平下检验联合假设H 0:βi =0(i=1,5,6,7)。

说明被择假设,计算检验统计值,说明其在零假设条件下的分布,拒绝或接受零假设的标准。

说明你的结论。

(3)哪个模型是“最优的”?解释你的选择标准。

(4)说明最优模型中有哪些系数的符号是“错误的”。

说明你的预期符号并解释原因。

确认其是否为正确符号。

参考答案 一、填空题1.n≥30或至少n≥3(k+1);2. n≥30或至少n≥24;3.u X Y +=β,e Xb Y +=,Y X X X b ''=-1)(,12)()(-'=ii u X X b Var σ; 4.回归平方和;残差平方和;回归平方和与残差平方和之比。

5. β ;6.非线性;非线性;变量非线性而参数为线性。

二、问答题1. 答:回归模型与一元线性回归模型的区别表现在如下几方面:一是解释变量的个数不同;二是模型的经典假设不同,多元线性回归模型比一元线性回归模型多了“解释变量之间不存在线性相关关系”的假定;三是多元线性回归模型的参数估计式的表达更复杂。

2. 答:极大似然法(ML )是不同于OLS 法的另一种模型参数估计方法。

ML 方法需要利用有关模型随机扰动项分布的知识构建似然函数,然后利用使似然函数最大的方法得出参数估计。

其基本思路是确定观察到的样本数据最可能来自某个分布,该分布的参数值即为总体参数的估计量。

3. 答:所谓拟合优度检验,指对样本回归直线与样本观测值之间拟合程度的检验。

如果所有的观测值都落在回归线上,称为“完全拟合”。

这种情况很少发生。

一般情况下,总会出现围绕在回归直线周围的正或负的残差。

通过对残差的分析,有助于衡量回归直线与样本观察值的拟合程度。

反映回归模型拟合优劣的一个数量指标是样本可决系数R 2,也称判定系数。

另一个是对回归模型的F 统计检验。

估计方程的目的常常不是为了获得高R 2,而是要得到可靠的参数估计,以便利用估计结果进行统计推断。

注意不要将判断系数作为评价模型优劣的唯一标准。

4. 答:可能由于:X 不是Y 的良好解释变量;模型形式设定有误。

一般地,利用时间序列数据估计的模型R 2值较高,而利用截面数据估计的模型R 2值较低。

5. 答:R 2的取值取决在0~1之间。

若Y 的全部变异都得到了解释,则R 2=1,若解释变量没有如何解释能力,有R 2=0。

在模型中不包含常数项的情况下,R 2的值可能超出0~1范围;是解释变量的非减函数,即增加解释变量不会降低R 2,在大多数情况下,R 2会增大。

相关文档
最新文档