第9章含定性变量的回归模型

合集下载

伍德里奇《计量经济学导论》(第5版)笔记和课后习题详解

伍德里奇《计量经济学导论》（第5 版）笔记和课后习题详解
读书笔记模板
01 思维导图
03 目录分析 05 读书笔记
目录
02 内容摘要 04 作者介绍 06 精彩摘录
思维导图
本书关键字分析思维导图
第版
计量经济学
时间
习题
序列
经典
变量
笔记
教材
笔记复习
模型
导论
笔记
第章
习题
分析
数据
回归
内容摘要
本书是伍德里奇《计量经济学导论》（第5版）教材的配套电子书，主要包括以下内容：（1）整理名校笔记，浓缩内容精华。每章的复习笔记以伍德里奇所著的《计量经济学导论》（第5版）为主，并结合国内外其他计量经济学经典教材对各章的重难点进行了整理，因此，本书的内容几乎浓缩了经典教材的知识精华。（2）解析课后习题，提供详尽答案。本书参考国外教材的英文答案和相关资料对每章的课后习题进行了详细的分析和解答。（3）补充相关要点，强化专业知识。一般来说，国外英文教材的中译本不太符合中国学生的思维习惯，有些语言的表述不清或条理性不强而给学习带来了不便，因此，对每章复习笔记的一些重要知识点和一些习题的解答，我们在不违背原书原意的基础上结合其他相关经典教材进行了必要的整理和分析。本书特别适用于参加研究生入学考试指定考研考博参考书目为伍德里奇所著的《计量经济学导论》的考生，也可供各大院校学习计量经济学的师生参考。
讨
2.1复习笔记 2.2课后习题详解
3.1复习笔记 3.2课后习题详解
4.1复习笔记 4.2课后习题详解
5.1复习笔记 5.2课后习题详解
6.1复习笔记 6.2课后习题详解
7.1复习笔记 7.2课后习题详解

自变量中含有定性变量的回归分析

有相同旳斜率，但有不同旳截距
图1 不同教育程度人员保健支出示意图
• （2）乘法方式——斜率旳变化
• 例：根据消费理论，消费水平C主要取决于收入水平X。但在一种较长旳时期，人们旳消费倾向会发生变化，尤其是在自然灾害、战争等反常年份，消费倾向往往出现变化。这种消费倾向旳变化可经过在收入旳系数中引入虚拟变量来考察。
Model
1
(Constant)
B
Std. Error
930.495 466.974
X1
387.616
62.565
X2
1262.693 314.127
a. Dependent Variable: Y
Standardized Coefficients
Beta
.931 .604
t 1.993 6.195 4.020
F 21.357
Sig. .001a
Model Summary
Adjusted Std. Error of R R Square R Square the Estimate .927a .859 .819 459.048 dictors: (Constant), X2, X1
Unstandardized Coefficients
Sig. .069 .001 .004 .005 .003 .002 .015
• 回归方程旳解释 • 当案例在两个分类变量都等于0时，即文化程度为文盲，居住地在农村
时，此种情况称为参照类（其他情况将与此进行比较），其回归方程为： • 表白全部参照类妇女年龄每上升1岁，其曾生子女数旳平均变化量为
则其几何图形如图2所示。
图2 不同年份消费倾向示意图
假如在模型中同步使用加法和乘法两种方式引入虚拟变量，则回归线旳截距和斜率都会变化。

第九章相关与回归分析

第9章相关与回归分析【教学内容】相关分析与回归分析是两种既有区别又有联系的统计分析方法。

本章阐述了相关关系的概念与特点;相关关系与函数关系的区别与联系;相关关系的种类;相关关系的测定方法(直线相关系数的含义、计算方法与运用);回归分析的概念与特点;回归直线方程的求解及其精确度的评价;估计标准误差的计算。

【教学目标】1、了解相关与回归分析的概念、特点和相关分析与回归分析的区别与联系；2、掌握相关分析的定性和定量分析方法；3、掌握回归模型的拟合方法、对回归方程拟合精度的测定和评价的方法。

【教学重、难点】1、相关分析与回归分析的概念、特点、区别与联系；2、相关与回归分析的有关计算公式和应用条件。

第一节相关分析的一般问题一、相关关系的概念与特点（一）相关关系的概念在自然界与人类社会中,许多现象之间是相互联系、相互制约的,表现在数量上也存在着一定的联系。

这种数量上的联系和关系究其实质,可以概括为两种不同类型,即函数关系与相关关系。

相关关系:是指现象之间客观存在的,在数量变化上受随机因素的影响,非确定性的相互依存关系。

例如,商品销售额与流通费用率之间的关系就是一种相关关系。

（二）相关关系的特点1、相关关系表现为数量相互依存关系。

2、相关关系在数量上表现为非确定性的相互依存关系。

二、相关关系的种类1、相关关系按变量的多少,可分为单相关和复相关2、相关关系从表现形态上划分,可分为直线相关和曲线相关3、相关关系从变动方向上划分,可分为正相关和负相关4、按相关的密切程度分,可分为完全相关、不完全相关和不相关三、相关分析的内容相关分析是对客观社会经济现象间存在的相关关系进行分析研究的一种统计方法。

其目的在于对现象间所存在的依存关系及其所表现出的规律性进行数量上的推断和认识,以便为回归分析提供依据。

相关分析的内容和程序是:(1)判别现象间有无相关关系(2)判定相关关系的表现形态和密切程度第二节相关关系的判断与分析一、相关关系的一般判断（一）定性分析对现象进行定性分析,就是根据现象之间的本质联系和质的规定性,运用理论知识、专业知识、实际经验来进行判断和分析。

应用回归分析.ppt

统计依赖关系
正相关线性相关不相关相关系数：
负相关 1 XY 1
正相关非线性相关不相关
负相关
2019年8月28
感谢你的观看
有因果关系回归分析无因果关系相关分析
9
1 .1 变量间的统计关系
• 注意（1）不线性相关并不意味着不相关。（2）有相关关系并不意味着一定有因果关系。（3）相关分析对称地对待任何（两个）变量，
2019年8月28
感谢你的观看
18
1 .4 建立实际问题回归模型的过程
五.模型的检验与修改
检验: 1. 回归方程
2. 回归系数
3. 拟合优度
4. 随机误差项序列的相关性异方差
修改:从设置变量是否合理开始—是否遗漏变量,变量间的依赖性是否强,样本容量是否少,理论模型是否合适等等.
六. 回归模型的应用
函数关系
商品的销售额与销售量之间的关系 y = px 圆的面积与半径之间的关系
S=R2
、原原材材料料消价耗格额(x与3)之产间量的(x关1) 系、单位产量消耗(x2) y = x1 x2 x3
2019年8月28
感谢你的观看
5
1 .1 变量间的统计关系
y（万元）
6000 5000 4000 3000 2000 1000
0 0
y = 1000x
123456 x（万辆）
图1.1 函数关系图
2019年8月28
感谢你的观看
6
1 .1 变量间的统计关系
相关关系的例子
子女身高 (y)与父亲身高(x)之间的关系收入水平(y)与受教育程度(x)之间的关系粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之间的关系商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系

第9章相关与回归分析

第九章相关与回归分析习题一、单选题1．下面的函数关系是（）。

A、销售人员测验成绩与销售额大小的关系B、圆周的长度决定于它的半径C、家庭的收入和消费的关系D、数学成绩与统计学成绩的关系2．若要证明两变量之间线性相关程度是高的，则计算出的相关系数应接近于（）。

A、+1B、0C、0.5D、+1或-13．回归系数和相关系数的符号是一致的，其符号均可用来判断现象（）。

A、线性相关还是非线性相关B、正相关还是负相关C、完全相关还是不完全相关D、单相关还是复相关4．在线性相关的条件下，自变量的均方差为2，因变量均方差为5，而相关系数为0.8时，则其回归系数为( )。

A、8B、0.32C、2D、12.55．下面现象间的关系属于相关关系的是（）。

A、圆的周长和它的半径之间的关系B、价格不变条件下,商品销售额与销售量之间的关系C、家庭收入愈多,其消费支出也有增长的趋势D、正方形面积和它的边长之间的关系6．下列关系中，属于正相关关系的是（）。

A、合理限度内，施肥量和平均单产量之间的关系B、产品产量与单位产品成本之间的关系C、商品的流通费用与销售利润之间的关系D、流通费用率与商品销售量之间的关系7．相关分析是研究（）。

A、变量之间的数量关系B、变量之间的变动关系C、变量之间的相互关系的密切程度D、变量之间的因果关系8．在回归直线y=a+bx中，b<0，则x与y之间的相关系数( )。

A、r=0B、r=lC、0<r<1D、-1<r<09．在回归直线y=a+bx中，b表示（）。

A、当x增加一个单位时，y增加a的数量B、当y增加一个单位时，x增加b的数量C、当x增加一个单位时，y的平均增加量D、当y增加一个单位时，x的平均增加量10．当相关系数r=0时，表明（）。

A、现象之间完全无关B、相关程度较小C、现象之间完全相关D、无直线相关关系11．下列现象相关密切程度最高的是（）。

A、某商店的职工人数与商品销售额之间的相关系数0.87B、流通费用水平与利润率之间的相关关系为-0.94C、商品销售额与利润率之间的相关系数为0.51D、商品销售额与流通费用水平的相关系数为-0.8112．估计标准误差是反映（）。

回归模型的要素

回归模型的要素
回归模型是一种统计分析方法，用于建立变量之间的关系模型。

它基于变量之间的线性关系假设，并通过拟合数据来估计模型参数。

回归模型包含以下要素：
1. 因变量（Dependent Variable）：也称为被解释变量或目标变量，它是我们想要预测或解释的变量。

2. 自变量（Independent Variables）：也称为解释变量或预测变量，它们是用来解释或预测因变量的变量。

回归模型可以包含一个或多个自变量。

3. 线性关系（Linear Relationship）：回归模型假设因变量与自变量之间存在线性关系，即自变量的变化对因变量的影响是线性的。

4. 残差（Residuals）：在回归模型中，残差是指观测值与模型预测值之间的差异。

回归模型的目标是通过最小化残差的平方和来找到最佳拟合线。

5. 模型参数（Model Parameters）：回归模型的参数是用来描述自变量与因变量之间关系的数值。

在线性回归模型中，参数表示自变量对因变量的影响程度。

6. 截距（Intercept）：截距是回归模型中的常数项，表示在自变量为零时，因变量的预测值。

它反映了因变量在没有自变量影响时的基准水平。

通过确定回归模型的要素，并进行数据拟合和参数估计，我
们可以使用回归模型来预测或解释因变量的变化。

经验分享,使用eviews做回归分析

[经验分享] 使用eviews做线性回归分析Glossary:ls(least squares)最小二乘法R-sequared样本决定系数（R2）：值为0-1，越接近1表示拟合越好，>0.8认为可以接受，但是R2随因变量的增多而增大，解决这个问题使用来调整Adjust R-seqaured()S.E of regression回归标准误差Log likelihood对数似然比：残差越小，L值越大，越大说明模型越正确Durbin-Watson stat：DW统计量，0-4之间Mean dependent var因变量的均值S.D. dependent var因变量的标准差Akaike info criterion赤池信息量(AIC)（越小说明模型越精确）Schwarz ctiterion:施瓦兹信息量（SC）（越小说明模型越精确）Prob(F-statistic)相伴概率fitted(拟合值)线性回归的基本假设：1.自变量之间不相关2.随机误差相互独立，且服从期望为0，标准差为σ的正态分布3.样本个数多于参数个数建模方法:ls y c x1 x2 x3 ...x1 x2 x3的选择先做各序列之间的简单相关系数计算，选择同因变量相关系数大而自变量相关系数小的一些变量。

模型的实际业务含义也有指导意义，比如m1同gdp肯定是相关的。

模型的建立是简单的，复杂的是模型的检验、评价和之后的调整、择优。

模型检验：1）方程显著性检验（F检验）：模型拟合样本的效果，即选择的所有自变量对因变量的解释力度F大于临界值则说明拒绝0假设。

Eviews给出了拒绝0假设(所有系统为0的假设)犯错误(第一类错误或α错误)的概率(收尾概率或相伴概率)p 值，若p小于置信度(如0.05)则可以拒绝0假设，即认为方程显著性明显。

2）回归系数显著性检验（t检验）：检验每一个自变量的合理性|t|大于临界值表示可拒绝系数为0的假设，即系数合理。

应用回归分析_第9章课后习题答案

第9章含定性变量的回归模型思考与练习参考答案9.1 一个学生使用含有季节定性自变量的回归模型，对春夏秋冬四个季节引入4个0-1型自变量，用SPSS 软件计算的结果中总是自动删除了其中的一个自变量，他为此感到困惑不解。

出现这种情况的原因是什么？答：假如这个含有季节定性自变量的回归模型为：t t t t kt k t t D D D X X Y μαααβββ++++++=332211110其中含有k 个定量变量，记为x i 。

对春夏秋冬四个季节引入4个0-1型自变量，记为D i ，只取了6个观测值，其中春季与夏季取了两次，秋、冬各取到一次观测值，则样本设计矩阵为：⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫⎝⎛=000110010110001010010010100011)(616515414313212111k k k k k k X X X X X X X X X X X X D X,显然，(X,D)中的第1列可表示成后4列的线性组合，从而(X,D)不满秩，参数无法唯一求出。

这就是所谓的“虚拟变量陷井”，应避免。

当某自变量x j 对其余p-1个自变量的复判定系数2j R 超过一定界限时，SPSS 软件将拒绝这个自变量x j 进入回归模型。

称Tol j =1-2j R 为自变量x j 的容忍度（Tolerance ），SPSS 软件的默认容忍度为0.0001。

也就是说，当2j R ＞0.9999时，自变量x j 将被自动拒绝在回归方程之外，除非我们修改容忍度的默认值。

⎪⎪⎪⎪⎪⎭⎫⎝⎛=k βββ 10β⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=4321ααααα而在这个模型中出现了完全共线性，所以SPSS软件计算的结果中总是自动删除了其中的一个定性自变量。

9.2对自变量中含有定性变量的问题，为什么不对同一属性分别建立回归模型，而采取设虚拟变量的方法建立回归模型？答：原因有两个，以例9.1说明。

一是因为模型假设对每类家庭具有相同的斜率和误差方差，把两类家庭放在一起可以对公共斜率做出最佳估计；二是对于其他统计推断，用一个带有虚拟变量的回归模型来进行也会更加准确，这是均方误差的自由度更多。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

§9.2 自变量定性变量回归模型的应用
一、分段回归在实际问题中，我们会碰到某些变量在不同的影响因素范围内变化趋势截然不同。对这种问题，有时用多种曲线拟合效果仍不能令人满意。如果做残差分析，会发现残差不是随机的，而具有一定的系统性，对这类问题，自然考虑用分段回归的方法做处理。
例9.2 表9.3给出某工厂生产批量xi与单位成本yi(美元)的数据。试用分段回归建立回归模型。
Coefficients Unstandardized Coefficients B Std. Error -8763.936 1270.878 4057.151 359.284 -776.939 2514.459 -787.564 663.367 Standardized Coefficients Beta .977 -.111 -.443
D i = 1, 当 x i > 500 D i = 0, 当 x i ≤ 500
引入两个新的自变量
xi1=xi xi2=(xi-500)Di
这样回归模型转化为标准形式的二元线性回归模型： yi=β0+β1xi1+β2xi2+εi （9.3）式可以分解为两个线性回归方程：当x1≤500时，E(y)=β0+β1x1 当x1＞500时，E(y)=(β0-500β2)+(β1+β2)x1 (9.3)
ANOVA Model 1 Regression Residual Total Sum of Squares 290372875.924 39856639.705 330229515.630 df 2 24 26 Mean Square 145186437.962 1660693.321 F 87.425 Sig. .000
(Constant) X1 X2 X3
t -6.896 11.292 -.309 -1.187
Sig. .000 .000 .760 .247
§9.3 因变量是定性变量的回归模型
在许多社会经济问题中，所研究的因变量往往只有两个可能结果，这样的因变量也可用虚拟变量来表示，虚拟变量的取值可取0或1。一、定性因变量的回归方程的意义设因变量y是只取0，1两个值的定性变量，考虑简单线性回归模型 yi=β0+β1xi+εi 在这种y只取0，1两个值的情况下，因变量均值 E(yi)=β0+β1xi有着特殊的意义。 (9.12)
第九章含定性变量的回归模型
9.1 9.2 9.3 9.4 9.5 9.6 9.7 自变量中含有定性变量的回归模型自变量定性变量回归模型的应用因变量是定性变量的回归模型 Logistic(逻辑斯蒂)回归多类别Logistic回归因变量是顺序变量的回归本章小结与评注
在实际问题研究中，常常遇见一些非数量型变量，如：性别，民族，正常年份，干旱年份，战争与和平，改革前，改革后等，在建立一个经济问题的回归方程时，常常考虑这些定性变量，如建立粮食产量预测方程就应考虑到正常年份与受灾年份的不同影响。本章主要介绍自变量含定性变量的回归模型和因变量是定性变量的回归模型。
(Constant) X X2
t 9.757 -2.65 -1.69
Sig. .000 .045 .153
对β2的显著性检验的显著性概率Sig=0.153，β2没有通过显著性检验，不能认为β2非零。用y对x做一元线性回归，计算结果为：
Coefficients Unstandardized Coefficients B Std. Error 6.795 .324 -6.318E-03 .001 Standardized Coefficients Beta -.976
(Constant) X
t 20.963 -10.90Biblioteka Sig. .000 .000
二、回归系数相等的检验例9.3 回到例9.1的问题，例9.1引入0-1型自变量的方法是假定储蓄增加额y对家庭收入的回归斜率β1与家庭年收入无关，家庭年收入只影响回归常数项β0，这个假设是否合理，还需要做统计检验。检验方法是引入如下含有交互效应的回归模型： yi=β0+β1xi1+β2xi2+β3xi1xi2+εi(9.8) 其中y为上一年家庭储蓄增加额， x1为上一年家庭总收入， x2表示家庭学历，高学历家庭x2=1,低学历家庭x2=0。
用普通最小二乘法拟合模型(9.3)式得回归方程为：
ˆ y =5.895-0.00395x1-0.00389x2
利用此模型可说明生产批量小于500时，每增加1个单位批量，单位成本降低0.00395美元；当生产批量大于500时，每增加1个单位批量，估计单位成本降低 0.00395+0.00389=0.00784(美元)。
0 0 0 0 0
建立y对x1、x2的线性回归
Model Summary Adjusted R Square .869 Std. Error of the Estimate 1288.68
Model 1
R R Square a .938 .879
a. Predictors: (Constant), X2, X1
粮食产量的回归模型为： yi=β0+β1xi+β2Di+εi 其中干旱年份的粮食平均产量为： E(yi|Di=0)=β0+β1xi 正常年份的粮食平均产量为： E(yi|Di=1)=(β0+β2)+β1xi
例9.1 某经济学家想调查文化程度对家庭储蓄的影响，在一个中等收入的样本框中，随机调查了13户高学历家庭与14户中低学历的家庭，因变量y为上一年家庭储蓄增加额，自变量x1为上一年家庭总收入，自变量x2表示家庭学历，高学历家庭x2=1,低学历家庭x2=0，调查数据见表9.1：
以上只是根据散点图从直观上判断本例数据应该用折线回归拟合，这一点还需要做统计的显著性检验，这只需对（9.2）式的回归系数β2做显著性检验。
Coefficients Unstandardized Coefficients B Std. Error 5.895 .604 -3.954E-03 .001 -3.893E-03 .002 Standardized Coefficients Beta -.611 -.388
回归模型（9.8）式可以分解为对高学历和对低学历家庭的两个线性回归模型，分别为：高学历家庭x2=1, yi=β0+β1xi1+β2+β3xi1+εi =（β0+β2）+（β1+β3）xi1+εi 低学历家庭x2=0， yi=β0+β1xi1+εi
要检验两个回归方程的回归系数(斜率)相等，等价于检验 H0：β3=0，当拒绝H0时，认为β3≠0，这时高学历与低学历家庭的储蓄回归模型实际上被拆分为两个不同的回归模型。当接受H0时，认为β3=0，这时高学历与低学历家庭的储蓄回归模型是如下形式的联合回归模型： yi=β0+β1xi1+β2xi2+εi
用回归法算出的高学历家庭每年的平均储蓄额比低学历的家庭平均少3824元，这是在假设两者的家庭年收入相等的基础上的储蓄差值，或者说是消除了家庭年收入的影响后的差值，因而反映了两者储蓄额的真实差异。而直接由样本计算的差值2050.05元是包含有家庭年收入影响在内的差值，是虚假的差值。所调查的13户高学历家庭的平均年收入额为3.8385万元，14户低学历家庭的平均年收入额为3.4071万元，两者并不相等。
Coefficients Unstandardized Coefficients B Std. Error -7976.809 1093.445 3826.129 304.591 -3700.330 513.445 Standardized Coefficients Beta .921 -.529
表9.1 序号 1 2 3 4 5 6 7
y（元） 235 346 365 468 658 867 1085
x1（万元） 2.3 3.2 2.8 3.5 2.6 3.2 2.6
x2 0 1 0 1 0 1 0
23 24 25 26 27
8950 9865 9866 10235 10140
3.9 4.8 4.6 4.8 4.2
由于yi是0-1型贝努利随机变量，则得如下概率分布： P(yi=1)=πi P(yi=0)=1-πi （9.13）根据离散型随机变量期望值的定义，可得 E(yi)=1(πi)+0(1-πi)=πi 得到 E(yi)=πi=β0+β1xi
二、定性因变量回归的特殊问题 1. 离散非正态误差项。对一个取值为0和1的因变量，误差项εi=yi-(β0+β1xi)只能取两个值：当yi=1时，当yi=0时， εi=1-β0-β1xi=1-πi εi=-β0-β1xi=-πi
家庭年收入x1是连续型变量，它对回归的贡献也是不可缺少的。如果不考虑家庭年收入这个自变量，13户高学历家庭的平均年储蓄增加额为3009.31元，14户低学历家庭的平均年储蓄增加额为5059.36元，这样会认为高学历家庭每年的储蓄额比低学历的家庭平均少 5059.36-3009.31=2050.05元，而用回归法算出的数值是3824元，两者并不相等。
二、复杂情况某些场合定性自变量可能取多类值，例如某商厦策划营销方案，需要考虑销售额的季节性影响，季节因素分为春、夏、秋、冬4种情况。为了用定性自变量反应春、夏、秋、冬四季，我们初步设想引入如下4个0-1自变量：
x1 = 1, x1 = 0,
x3 = 1, x3 = 0,
春季其它
秋季其它
x2 = 1, x2 = 0,
x4 = 1, x4 = 0,
夏季其它