应用回归分析,第7章课后习题参考答案

合集下载

应用回归分析课后习题参考答案_全部版__何晓群_刘文卿

第一章回归分析概述1.2 回归分析与相关分析的联系与区别是什么？答：联系有回归分析和相关分析都是研究变量间关系的统计学课题。

区别有 a.在回归分析中，变量y称为因变量，处在被解释的特殊地位。

在相关分析中，变量x和变量y处于平等的地位，即研究变量y与变量x的密切程度与研究变量x与变量y的密切程度是一回事。

b.相关分析中所涉及的变量y与变量x全是随机变量。

而在回归分析中，因变量y是随机变量，自变量x可以是随机变量也可以是非随机的确定变量。

C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。

而回归分析不仅可以揭示变量x对变量y的影响大小，还可以由回归方程进行预测和控制。

1.3回归模型中随机误差项ε的意义是什么？答：ε为随机误差项，正是由于随机误差项的引入，才将变量间的关系描述为一个随机方程，使得我们可以借助随机数学方法研究y与x1,x2…..xp的关系，由于客观经济现象是错综复杂的，一种经济现象很难用有限个因素来准确说明，随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。

1.4 线性回归模型的基本假设是什么？答：线性回归模型的基本假设有：1.解释变量x1.x2….xp是非随机的，观测值xi1.xi2…..xip是常数。

2.等方差及不相关的假定条件为{E(εi)=0 i=1,2…. Cov(εi,εj)=｛σ^23.正态分布的假定条件为相互独立。

4.样本容量的个数要多于解释变量的个数，即n>p.第二章一元线性回归分析思考与练习参考答案2.1一元线性回归有哪些基本假定?答：假设1、解释变量X是确定性变量，Y是随机变量；假设2、随机误差项ε具有零均值、同方差和不序列相关性：E(εi)=0 i=1,2, …,nVar (εi)=σ2i=1,2, …,nCov(εi,εj)=0 i≠j i,j= 1,2, …,n假设3、随机误差项ε与解释变量X之间不相关：Cov(X i, εi)=0 i=1,2, …,n假设4、ε服从零均值、同方差、零协方差的正态分布εi~N(0, σ2) i=1,2, …,n2.3 证明（2.27式），∑e i =0 ，∑e i X i =0 。

第七章回归与相关分析练习及答案

第七章回归与相关分析一、填空题1．现象之间的相关关系按相关的程度分为、和；按相关的形式分为和；按影响因素的多少分为和。

2．两个相关现象之间，当一个现象的数量由小变大，另一个现象的数量，这种相关称为正相关；当一个现象的数量由小变大，另一个现象的数量，这种相关称为负相关。

3．相关系数的取值X围是。

4．完全相关即是关系，其相关系数为。

5．相关系数，用于反映条件下，两变量相关关系的密切程度和方向的统计指标。

6．直线相关系数等于零，说明两变量之间；直线相关系数等1，说明两变量之间；直线相关系数等于—1，说明两变量之间。

7．对现象之间变量的研究，统计是从两个方面进行的，一方面是研究变量之间关系的，这种研究称为相关关系；另一方面是研究关于自变量和因变量之间的变动关系，用数学方程式表达，称为。

8．回归方程y=a+bx中的参数a是，b是。

在统计中估计待定参数的常用方法是。

9. 分析要确定哪个是自变量哪个是因变量，在这点上它与不同。

10．求两个变量之间非线性关系的回归线比较复杂，在许多情况下，非线性回归问题可以通过化成来解决。

11．用来说明回归方程代表性大小的统计分析指标是。

12．判断一条回归直线与样本观测值拟合程度好坏的指标是。

二、单项选择题1．下面的函数关系是( )A销售人员测验成绩与销售额大小的关系 B圆周的长度决定于它的半径C家庭的收入和消费的关系 D数学成绩与统计学成绩的关系2．相关系数r的取值X围( )A -∞<r<+∞B -1≤r≤+1C -1<r<+1D 0≤r≤+13．年劳动生产率z(干元)和工人工资y=10+70x，这意味着年劳动生产率每提高1千元时，工人工资平均( )A增加70元 B减少70元 C增加80元 D减少80元4．若要证明两变量之间线性相关程度是高的，则计算出的相关系数应接近于( )A+1 B 0 C 0．5 D [1]5．回归系数和相关系数的符号是一致的，其符号均可用来判断现象( ) A线性相关还是非线性相关 B正相关还是负相关C完全相关还是不完全相关 D单相关还是复相关6．某校经济管理类的学生学习统计学的时间(x)与考试成绩(y)之间建=a+b x。

《应用回归分析》课后题答案

.168
.027
.885
接受原假设认为显著不为 0，因变量 y 对自变量 x 的一元线性回归成立。
(9)相关系数
=
小于表中的相应值同时大于表中的相应值，x 与 y 有显著的线性关系.
(10)
序号
1
825
3．5
3.0768
0.4232
2
215
1
0.8808
0.1192
3
1070
4
3.9588
0.0412
从图上可看出，检验误差项服从正态分布。
6h
GB6017.1-20 起重机械安全规程-第 1 部分
第三章多元线性回归
3.11 解：（1）用 SPSS 算出 y，x1，x2,x3 相关系数矩阵：
Pearson 相关
y
性
x1
x2
x3
y
x1
x2
x3
N
y
x1
x2
x3
相关性
y 1.000
.556 .731 .724
系数a 模型
非标准化系数
标准系数
Si
B 的 95.0% 置信
t g.
区间
相关性
共线性统计量
9h
GB6017.1-20 起重机械安全规程-第 1 部分
标准误
试用
B
差
版
下限
零上限阶
部
容V
偏分
差 IF
1(常
-459.6
量)
24
8
153.05
-3.
.0
-821.5
003
20
47
0
-97.70
x1

《应用回归分析》课后题答案

《使用回归分析》部分课后习题答案第一章回归分析概述变量间统计关系和函数关系的区别是什么答：变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系，而变量间的函数关系是指由一个变量唯一确定另外一个变量的确定关系。

回归分析和相关分析的联系和区别是什么答：联系有回归分析和相关分析都是研究变量间关系的统计学课题。

区别有 a.在回归分析中，变量y称为因变量，处在被解释的特殊地位。

在相关分析中，变量x和变量y处于平等的地位，即研究变量y和变量x的密切程度和研究变量x 和变量y的密切程度是一回事。

b.相关分析中所涉及的变量y和变量x全是随机变量。

而在回归分析中，因变量y是随机变量，自变量x可以是随机变量也可以是非随机的确定变量。

C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。

而回归分析不仅可以揭示变量x对变量y的影响大小，还可以由回归方程进行预测和控制。

回归模型中随机误差项ε的意义是什么答：ε为随机误差项，正是由于随机误差项的引入，才将变量间的关系描述为一个随机方程，使得我们可以借助随机数学方法研究y和x1,x2…..xp的关系，由于客观经济现象是错综复杂的，一种经济现象很难用有限个因素来准确说明，随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。

线性回归模型的基本假设是什么答：线性回归模型的基本假设有：1.解释变量….xp是非随机的，观测值…..xip是常数。

2.等方差及不相关的假定条件为{E(εi)=0 i=1,2…. Cov(εi,εj)=｛σ^2《3.正态分布的假定条件为相互独立。

4.样本容量的个数要多于解释变量的个数，即n>p.回归变量的设置理论根据是什么在回归变量设置时应注意哪些问题答：理论判断某个变量应该作为解释变量，即便是不显著的，如果理论上无法判断那么可以采用统计方法来判断，解释变量和被解释变量存在统计关系。

《应用回归分析》课后题标准答案

3
（5）由于 1
N
(1,
2 Lxx
)
t
1 1 2 / Lxx
(1
)
Lxx
服从自由度为 n-2 的 t 分布。因而
P
|
(
1
)
Lxx
|
t
/
2
(n
2)
1
也即： p(1 t /2
Lxx
1 1 t /2
) =1 Lxx
可得
ቤተ መጻሕፍቲ ባይዱ
1
的置信度为95%的置信区间为（7-2.353
1 3
33，7+2.353 1 3
1
第二章一元线性回归
2.14 解答：（1）散点图为：
（2）x 与 y 之间大致呈线性关系。
（3）设回归方程为 y 0 1 x
n
xi yi n x y
1=
i 1 n
7
xi2 n(x)2
i 1
0 y 1 x 20 7 3 1
可得回归方程为 y 1 7x
2
（4）
1 n-2
1.5 回归变量的设置理论根据是什么？在回归变量设置时应注意哪些问题？答：理论判断某个变量应该作为解释变量，即便是不显著的，如果理论上无法判断那么可以采用统计方法来判断，解释变量和被解释变量存在统计关系。应注意的问题有：在选择变量时要注意与一些专门领域的专家合作，不要认为一个回归模型所涉及的变量越多越好，回归变量的确定工作并不能一次完成，需要反复试算，最终找出最合适的一些变量。
t /2
0
0
1 n
( x)2 Lxx
t
/
2
)
1
可得 1的置信度为95%的置信区间为（ 7.77,5.77）

《应用回归分析》课后题答案

回归分析和相关分析的联系和区别是什么答：联系有回归分析和相关分析都是研究变量间关系的统计学课题。

区别有 a.在回归分析中，变量y称为因变量，处在被解释的特殊地位。

在相关分析中，变量x和变量y处于平等的地位，即研究变量y和变量x的密切程度和研究变量x和变量y的密切程度是一回事。

b.相关分析中所涉及的变量y和变量x全是随机变量。

而在回归分析中，因变量y是随机变量，自变量x可以是随机变量也可以是非随机的确定变量。

C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。

而回归分析不仅可以揭示变量x对变量y的影响大小，还可以由回归方程进行预测和控制。

—线性回归模型的基本假设是什么答：线性回归模型的基本假设有：1.解释变量….xp是非随机的，观测值…..xip是常数。

2.等方差及不相关的假定条件为{E(εi)=0 i=1,2…. Cov(εi,εj)=｛σ^23.正态分布的假定条件为相互独立。

第七章相关与回归分析习题答案

第七章相关与回归分析习题答案一、填空题1．完全相关、不完全相关、不相关2．—1≤r ≤1 3．函数、1=r4．无线性相关、完全正相关、完全负相关5. 密切程度6. 正相关、负相关7. 直线相关、曲线相关8.回归系数9.随机的、给定的10.最小二乘法，残差平方和二、单项选择题1．B 2．B 3．A 4．A 5．B6．C 7．D 8．B 9． A 10．C11．C 12．B 13．D 14．B 15．C三、多项选择题1．BCD 2．ACD 3．ABD 4．ABCD 5．ACE四、计算题1解：（1）7863.073.42505309.334229)())((ˆ22==---=∑∑X X X X Y Y ttt β 3720.4088.647*7863.08.549ˆˆ21=-=-=X Y ββ （2）∑∑∑----=2222)()(]))(([Y Y X X X X Y Y r t t t t999834.025.262855*73.42505309.3342292== 6340.43)()1(222=--=∑∑Y Y r e t0889.222=-=∑n e S te（3）0:,0:2120≠=ββH H003204.073.4250530889.2)(2ˆ2==-=∑X XS S t e β 4120.245003204.07863.0ˆ22ˆ2ˆ===βββS t 228.2)10()2(05.02/==-t n t αt 值远大于临界值2.228，故拒绝零假设，说明2β在5％的显著性水平下通过了显著性检验。

（4）41.669800*7863.03720.40=+=f Y （万元）1429.273.425053)88.647800(12110089.2)()(11222=-++=--++=∑X X X X n S S t f e f 所以，Y f 的置信度为95％的预测区间为：3767.241.6690667.1*228.214.696)2(2/±=±=-±f e f S n t Y α所以，区间预测为：18.46764.466≤≤f Y2解：（1）2222)())())((ˆ∑∑∑∑∑∑∑--=---=tt tt t t t t t X X N Y X Y X N X X X X Y Y β 0273.0472*47228158*9472*54.1302.803*9=--= 0727.09/472*0273.09/54.13ˆˆ21=-=-=X Y ββ （2）决定系数：9723.0)()(]))(([2222=----=∑∑∑Y X X X Y Y r t t t t 残差平方和 0722.0)()1(222=--=∑∑Y Y r e t （3）身高与体重的相关系数：9861.09723.02===R r不同时为零和211210:,0:ββββH H ==1016.022=-=∑n e S t e 检验统计量9134.245)(ˆ2222=-=∑e tS X F β)2(2,1-=-N t F NF 值远大于临界值2.365，故拒绝零假设，说明回归方程在5％的显著性水平下通过了显著性检验。

最新应用回归分析-第7章课后习题参考答案

第7章岭回归思考与练习参考答案7.1 岭回归估计是在什么情况下提出的？答：当自变量间存在复共线性时，｜X’X ｜≈0，回归系数估计的方差就很大，估计值就很不稳定，为解决多重共线性，并使回归得到合理的结果，70年代提出了岭回归(Ridge Regression,简记为RR)。

7.2岭回归的定义及统计思想是什么？答：岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法，其统计思想是对于（X ’X ）-1为奇异时，给X’X 加上一个正常数矩阵D, 那么X’X+D接近奇异的程度就会比X ′X 接近奇异的程度小得多，从而完成回归。

但是这样的回归必定丢失了信息，不满足blue 。

但这样的代价有时是值得的，因为这样可以获得与专业知识相一致的结果。

7.3 选择岭参数k 有哪几种方法？答：最优k 是依赖于未知参数β和2σ的，几种常见的选择方法是： ○1岭迹法：选择0k 的点能使各岭估计基本稳定，岭估计符号合理，回归系数没有不合乎经济意义的绝对值，且残差平方和增大不太多； ○2方差扩大因子法：11()()()c k X X kI X X X X kI --'''=++，其对角线元()jj c k 是岭估计的方差扩大因子。

要让()10jj c k ≤；○3残差平方和：满足()SSE k cSSE <成立的最大的k 值。

7.4 用岭回归方法选择自变量应遵循哪些基本原则？答：岭回归选择变量通常的原则是：1. 在岭回归的计算中，我们通常假定涉及矩阵已经中心化和标准化了，这样可以直接比较标准化岭回归系数的大小。

我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量；2. 当k 值较小时，标准化岭回归系数的绝对值并不很小，但是不稳定，随着k 的增加迅速趋近于零。

像这样岭回归系数不稳定、震动趋于零的自变量，我们也可以予以剔除；3. 去掉标准化岭回归系数很不稳定的自变量。

如果有若干个岭回归系数不稳定，究竟去掉几个，去掉那几个，要根据去掉某个变量后重新进行岭回归分析的效果来确定。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第7章岭回归思考与练习参考答案7.1 岭回归估计是在什么情况下提出的？答：当自变量间存在复共线性时，｜X’X｜≈0，回归系数估计的方差就很大，估计值就很不稳定，为解决多重共线性，并使回归得到合理的结果，70年代提出了岭回归(Ridge Regression,简记为RR)。

7.2岭回归的定义及统计思想是什么？答：岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法，其统计思想是对于（X’X）-1为奇异时，给X’X加上一个正常数矩阵D, 那么X’X+D接近奇异的程度就会比X′X接近奇异的程度小得多，从而完成回归。

但是这样的回归必定丢失了信息，不满足blue。

但这样的代价有时是值得的，因为这样可以获得与专业知识相一致的结果。

7.3 选择岭参数k有哪几种方法？答：最优是依赖于未知参数和的，几种常见的选择方法是：岭迹法：选择的点能使各岭估计基本稳定，岭估计符号合理，回归系数没有不合乎经济意义的绝对值，且残差平方和增大不太多；方差扩大因子法：，其对角线元是岭估计的方差扩大因子。

要让；残差平方和：满足成立的最大的值。

我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量；2. 当k值较小时，标准化岭回归系数的绝对值并不很小，但是不稳定，随着k的增加迅速趋近于零。

像这样岭回归系数不稳定、震动趋于零的自变量，我们也可以予以剔除；3. 去掉标准化岭回归系数很不稳定的自变量。

如果有若干个岭回归系数不稳定，究竟去掉几个，去掉那几个，要根据去掉某个变量后重新进行岭回归分析的效果来确定。

7.5 对第5章习题9的数据，逐步回归的结果只保留了三个变量x1，x2，x5，用y对这三个自变量作岭回归分析？答：附5.9 在研究国家财政收入时，我们把财政收入按收入形式分为：各项税收收入、企业收入、债务收入、国家能源交通重点建设收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。

为了建立国家财政收入回归模型，我们以财政收入y（亿元）为因变量，自变量如下：x1为农业增加值（亿元），x2为工业增加值（亿元），x3为建筑业增加值（亿元），x4为人口数（万人），x5为社会消费总额（亿元），x6为受灾面积（万公顷）。

据《中国统计年鉴》获得1978—1998年共21个年份的统计数据，见表5.4（P167）。

解：（1）逐步回归法回归方程为：y=865.929—0.601x1－0.361x2＋0.639x5但是回归系数的解释不合理。

从经济意义上讲，x1（农业增加值）、x2（工业增加值）的增加应该对y （财政收入）有正方向的影响，然而回归方程中两个自变量的系数均为负值，明显与实际的经济意义不相符。

同时，三个自变量的VIF值均远大于10，说明回归方程仍然存在较强的多重共线性，逐步回归的方法并没有消除自变量之间的多重共线性。

（2）岭回归法：依题意，对逐步回归法所保留的三个自变量做岭回归分析。

程序为：include'C:\Program Files\SPSSEVAL\Ridge regression.sps'.ridgereg dep=y/enter x1 x2 x5/start=0.0/stop=1/inc=0.01.岭迹图如下：计算结果为：可以看到，变量x1、x2迅速由负变正，x5迅速减小，在0.01-0.1之间各回归系数的岭估计基本稳定，重新做岭回归。

岭迹图如下：先取k=0.08：语法命令如下：include'C:\Program Files\SPSSEVAL\Ridge regression.sps'. ridgereg dep=y/enter x1 x2 x5/k=0.08.运行结果如下：得到回归方程为：再取k=0.01：语法命令如下：include'C:\Program Files\SPSSEVAL\Ridge regression.sps'. ridgereg dep=y/enter x1 x2 x5/k=0.01.运行结果：****** Ridge Regression with k = 0.01 ******Mult R .9931857RSquare .9864179Adj RSqu .9840210SE 329.6916494ANOVA tabledf SS MSRegress 3.000 134201841 44733947Residual 17.000 1847841.9 108696.58F value Sig F411.5487845 .0000000--------------Variables in the Equation---------------- B SE(B) Beta B/SE(B)x1 .0556780 .0615651 .0981355 .9043751x2 .0796395 .0218437 .32912933.6458814x5 .1014400 .0108941 .56210889.3114792Constant 753.3058478 121.7381256 .0000000 6.187920 5回归方程为： y=753.3058—0.05568x1－0.0796x2＋0.1014x5从上表可看出，方程通过F检验，R检验，经查表，所有自变量均通过t检验，说明回归方程通过检验。

从经济意义上讲，x1（农业增加值）、x2（工业增加值）x5（社会消费总额）的增加应该对y（财政收入）有正方向的影响，岭回归方程中三个自变量的系数均为正值，与实际的经济意义相符。

比逐步回归法得到的方程有合理解释。

(3)主成分回归对原所有自变量做主成分回归，结果如下：由于第一主成分的贡献率已达到85%以上，故只选取第一主成分，记作Z1：Z1=（0.991x1+0.985x2+0.983x3+0.929x4+0.193x5+0.610x6）/5.1331/2,作Y与Z1的最小二乘估计，输出结果如下：根据上表得到y与第一主成分的线性回归方程为：=3400.443+1149.094Z1,将主成分回代为原自变量得最终方程为：=0.1093 * x1+0.0463 * x2+0.2912 * x3+0.0512 * x4+0.0347 * x5+0.0444 * x6-6313.397各自变量的解释意义基本合理。

7.6 对习题3.12的问题，分别用普通最小二乘法和岭回归建立GDP对第二产业增加值x2和第三产业增加值x3的二元线性回归，解释所得到的回归系数。

解：（1）普通最小二乘法：根据上表得到y与x2，x3的线性回归方程为：=4352.859+1.438x2+0.679x3上式中的回归系数得不到合理的解释.的数值应该大于1，实际上，x3的年增长幅度大于x1和x2的年增长幅度，因此合理的的数值应大于1。

这个问题产生的原因仍然是存在共线性，所以采用岭回归来改进这个问题。

（2）岭回归法：程序为：include'C:\Program Files\SPSSEVAL\Ridge regression.sps'.ridgereg dep=GDP/enter x2 x3/start=0.0/stop=0.5/inc=0.01.根据岭迹图（如下图）可知，和很不稳定，但其和大体上稳定，说明x2和x3存在多重共线性。

取k=0.1，SPSS输出结果为：Mult R .998145， RSquare .996294Adj RSqu .995677，SE 2364.837767ANOVA tabledf SS MSRegress 2.000 1.80E+010 9.02E+009Residual 12.000 67109492 5592457.7F value Sig F1613.140715 .000000--------------Variables in the Equation----------------B SE(B) Beta B/SE(B)x2 .907990 .021842 .489067 41 .571133x3 1.393800 .035366 .463649 3 9.410560Constant 6552.305986 1278.903452 .000000 5.1233 78得岭参数k=0.1时，岭回归方程为 = 6552.306+0.908 x2+1.3938 x3，得岭参数k=0.01时，岭回归方程为 = 3980.2+1.091 x2+1.227 x3，与普通最小二乘回归方程相差很大。

岭回归系数=1.227与前面的分析是吻合的，其解释是当第二产业增加值x2保持不变时，第三产业增加值 x3每增加1亿元GDP增加1.227亿元，这个解释是合理的。

7.7一家大型商业银行有多家分行，近年来，该银行的贷款额平稳增长，但不良贷款额也有较大比例的提高。

为弄清楚不良贷款形成的原因，希望利用银行业务的有关数据做定量分析，以便找出控制不良贷款的方法。

表7.5（P206）是该银行所属25家分行2002年的有关业务数据。

（1）计算y与其余4个变量的简单相关系数。

（2）建立不良贷款y对4个自变量的线性回归方程，所得的回归系数是否合理？（3）分析回归模型的共线性。

（4）采用后退法和逐步回归法选择变量，所得的回归系数是否合理？是否还存在共线性？（5）建立不良贷款y对4个变量的岭回归。

（6）对（4）剔除变量后的回归方程再做岭回归。

（7）某研究人员希望做y对各项贷款余额、本年累计应收贷款、贷款项目个数这3个自变量的回归，你认为这样做可行吗？如果可行应怎么做？解：首先对数据标准化。

（1）计算与其余4个变量的简单相关系数。

计算y与各自变量之间的简单相关系数，SPSS输出结果为：由结果得到，Y与四个自变量的相关系数分别为：0.844, 0.732, 0.7,0.519，且都通过了显著性检验，说明与其余4个变量是显著线性相关的。

同时也可以看出变量之间也存在一定的线性相关性。

（2）建立不良贷款对4个自变量的线性回归方程，所得的回归系数是否合理？由SPSS输出（如上表）可知回归方程为：=0.04x1+0.148x2+0.015x3-0.029x4-1.022从上表可看出，方程的自变量X3、X4、X5未通过t检验，说明回归方程不显著，而且由实际意义出发，x4的系数不能是负的。

所以所得的回归系数不合理。

（3）分析回归模型的共线性。

解：由上表可知，所有自变量对应的VIF全部小于10，所以自变量之间不存在共线性。