应用回归分析,第7章课后习题参考答案

应用回归分析,第7章课后习题参考答案
应用回归分析,第7章课后习题参考答案

第7章岭回归

思考与练习参考答案

7.1 岭回归估计是在什么情况下提出的?

答:当自变量间存在复共线性时,|X’X|≈0,回归系数估计的方差就很大,估计值就很不稳定,为解决多重共线性,并使回归得到合理的结果,70年代提出了岭回归(Ridge Regression,简记为RR)。

7.2岭回归的定义及统计思想是什么?

答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其统计思想是对于(X’X)-1为奇异时,给X’X加上一个正常数矩阵

D, 那么X’X+D接近奇异的程度就会比X′X接近奇异的程度小得多,从而完成回归。但是这样的回归必定丢失了信息,不满足blue。但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。

7.3 选择岭参数k有哪几种方法?

答:最优

是依赖于未知参数

的,几种常见的选择方法是:

岭迹法:选择

的点能使各岭估计基本稳定,岭估计符号合理,回归系数没有不合乎经济意义的绝对值,且残差平方和增大不太多;

方差扩大因子法:

,其对角线元

是岭估计的方差扩大因子。要让

残差平方和:满足

成立的最大的

值。

7.4 用岭回归方法选择自变量应遵循哪些基本原则?

答:岭回归选择变量通常的原则是:

1. 在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量;

2. 当k值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随着k的增加迅速趋近于零。像这样岭回归系数不稳定、震动趋于零的自变量,我们也可以予以剔除;

3. 去掉标准化岭回归系数很不稳定的自变量。如果有若干个岭回归系数不稳定,究竟去掉几个,去掉那几个,要根据去掉某个变量后重新进行岭回归分析的效果来确定。

7.5 对第5章习题9的数据,逐步回归的结果只保留了三个变量x1,x2,

x5,用y对这三个自变量作岭回归分析?

答:附5.9 在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量,自变量如下:x1为农业增加值(亿元),x2为工业增加值(亿元),x3为建筑业增加值(亿元),x4为人口数(万人),x5为社会消费总额(亿元),x6为受灾面积(万公顷)。据《中国统计年鉴》获得1978—1998年共21个年份的统计数据,见表5.4(P167)。

解:(1)逐步回归法

回归方程为:

y=865.929—0.601x1-0.361x2+0.639x5

但是回归系数的解释不合理。

从经济意义上讲,x1(农业增加值)、x2(工业增加值)的增加应该对y (财政收入)有正方向的影响,然而回归方程中两个自变量的系数均为负值,明显与实际的经济意义不相符。同时,三个自变量的VIF值均远大于10,说明回归方

程仍然存在较强的多重共线性,逐步回归的方法并没有消除自变量之间的多重共线性。

(2)岭回归法:

依题意,对逐步回归法所保留的三个自变量做岭回归分析。

程序为:

include'C:\Program Files\SPSSEVAL\Ridge regression.sps'.

ridgereg dep=y/enter x1 x2 x5

/start=0.0/stop=1/inc=0.01.

岭迹图如下:

计算结果为:

可以看到,变量x1、x2迅速由负变正,x5迅速减小,在0.01-0.1之间各回归系数的岭估计基本稳定,重新做岭回归。岭迹图如下:

先取k=0.08:

语法命令如下:

include'C:\Program Files\SPSSEVAL\Ridge regression.sps'. ridgereg dep=y/enter x1 x2 x5

/k=0.08.

运行结果如下:

得到回归方程为:

再取k=0.01:

语法命令如下:

include'C:\Program Files\SPSSEVAL\Ridge regression.sps'. ridgereg dep=y/enter x1 x2 x5

/k=0.01.

运行结果:

****** Ridge Regression with k = 0.01 ******

Mult R .9931857

RSquare .9864179

Adj RSqu .9840210

SE 329.6916494

ANOVA table

df SS MS

Regress 3.000 134201841 44733947

Residual 17.000 1847841.9 108696.58

F value Sig F

411.5487845 .0000000

--------------Variables in the Equation---------------- B SE(B) Beta B/SE(B)

x1 .0556780 .0615651 .0981355 .9043751

x2 .0796395 .0218437 .3291293

3.6458814

x5 .1014400 .0108941 .5621088

9.3114792

Constant 753.3058478 121.7381256 .0000000 6.187920 5

回归方程为: y=753.3058—0.05568x1-0.0796x2+0.1014x5

从上表可看出,方程通过F检验,R检验,经查表,所有自变量均通过t检验,说明回归方程通过检验。

从经济意义上讲,x1(农业增加值)、x2(工业增加值)x5(社会消费总额)的增加应该对y(财政收入)有正方向的影响,岭回归方程中三个自变量的系数均为正值,与实际的经济意义相符。比逐步回归法得到的方程有合理解释。

(3)主成分回归

对原所有自变量做主成分回归,结果如下:

由于第一主成分的贡献率已达到85%以上,故只选取第一主成分,记作Z1:

Z1=(0.991x1+0.985x2+0.983x3+0.929x4+0.193x5+0.610x6)/5.1331/2,

作Y与Z1的最小二乘估计,输出结果如下:

根据上表得到y与第一主成分的线性回归方程为:

=3400.443+1149.094Z1,

将主成分回代为原自变量得最终方程为:

=0.1093 * x1+0.0463 * x2+0.2912 * x3+0.0512 * x4+0.0347 * x5+0.0444 * x6-6313.397

各自变量的解释意义基本合理。

7.6 对习题3.12的问题,分别用普通最小二乘法和岭回归建立GDP对第二产业增加值x2和第三产业增加值x3的二元线性回归,解释所得到的回归系数。

解:(1)普通最小二乘法:

根据上表得到y与x2,x3的线性回归方程为:

=4352.859+1.438x2+0.679x3

上式中的回归系数得不到合理的解释.

的数值应该大于1,实际上,x3的年增长幅度大于x1和x2的年增长幅度,因此合理的

的数值应大于1。这个问题产生的原因仍然是存在共线性,所以采用岭回归来改进这个问题。

(2)岭回归法:

程序为:

include'C:\Program Files\SPSSEVAL\Ridge regression.sps'.

ridgereg dep=GDP/enter x2 x3

/start=0.0/stop=0.5/inc=0.01.

根据岭迹图(如下图)可知,

很不稳定,但其和大体上稳定,说明x2和x3存在多重共线性。取k=0.1,SPSS输出结果为:

Mult R .998145, RSquare .996294

Adj RSqu .995677,SE 2364.837767

ANOVA table

df SS MS

Regress 2.000 1.80E+010 9.02E+009

Residual 12.000 67109492 5592457.7

F value Sig F

1613.140715 .000000

--------------Variables in the Equation----------------

B SE(B) Beta B/SE(B)

x2 .907990 .021842 .489067 41 .571133

x3 1.393800 .035366 .463649 3 9.410560

Constant 6552.305986 1278.903452 .000000 5.1233 78

得岭参数k=0.1时,岭回归方程为 = 6552.306+0.908 x2+1.3938 x3,

得岭参数k=0.01时,岭回归方程为 = 3980.2+1.091 x2+1.227 x3,

与普通最小二乘回归方程相差很大。

岭回归系数

=1.227与前面的分析是吻合的,其解释是当第二产业增加值x2保持不变时,第三产业增加值 x3每增加1亿元GDP增加1.227亿元,这个解释是合理的。

7.7一家大型商业银行有多家分行,近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高。为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做定量分析,以便找出控制不良贷款的方法。表7.5(P206)是该银行所属25家分行2002年的有关业务数据。

(1)计算y与其余4个变量的简单相关系数。

(2)建立不良贷款y对4个自变量的线性回归方程,所得的回归系数是否合理?

(3)分析回归模型的共线性。

(4)采用后退法和逐步回归法选择变量,所得的回归系数是否合理?是否还存在共线性?

(5)建立不良贷款y对4个变量的岭回归。

(6)对(4)剔除变量后的回归方程再做岭回归。

(7)某研究人员希望做y对各项贷款余额、本年累计应收贷款、贷款项目个数这3个自变量的回归,你认为这样做可行吗?如果可行应怎么做?

解:首先对数据标准化。

(1)计算

与其余4个变量的简单相关系数。

计算y与各自变量之间的简单相关系数,SPSS输出结果为:

由结果得到,Y与四个自变量的相关系数分别为:0.844, 0.732, 0.7,

0.519,且都通过了显著性检验,说明

与其余4个变量是显著线性相关的。同时也可以看出变量之间也存在一定的线性相关性。

(2)建立不良贷款对4个自变量的线性回归方程,所得的回归系数是否合理?

由SPSS输出(如上表)可知回归方程为:

=0.04x1+0.148x2+0.015x3-0.029x4-1.022

从上表可看出,方程的自变量X3、X4、X5未通过t检验,说明回归方程不显著,而且由实际意义出发,x4的系数不能是负的。所以所得的回归系数不合理。

(3)分析回归模型的共线性。

解:由上表可知,所有自变量对应的VIF全部小于10,所以自变量之间不存在共线性。但进行特征根检验见下表:

由这个表可以看出来,第5行中x1、x3的系数分别为0.87、0.63,可以说明这两个变量之间有共线性。

(4)采用后退法和逐步回归法选择变量,所得的回归系数是否合理?是否还存在共线性?

解:

采用后退法(见下表),所得回归方程为

=0.041x1+0.149x2-0.029x4-0.972

采用逐步回归法(见下表),所得回归方程为

=0.05x1-0.032x4-0.443

所得X4的系数不合理(为负),说明存在共线性

(5)建立不良贷款y对4个变量的岭回归。

对y与全部变量做岭回归。

R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K

K RSQ X1 X2 X3 X4

______ ______ ________ ________ ________ _ _______

.00000 .79760 .891313 .259817 .034471 -

.324924

.05000 .79088 .713636 .286611 .096624 -

.233765

.10000 .78005 .609886 .295901 .126776 -

.174056

.15000 .76940 .541193 .297596 .143378 -

.131389

.20000 .75958 .491935 .295607 .153193 -

.099233

.25000 .75062 .454603 .291740 .159210 -

.074110

.30000 .74237 .425131 .286912 .162925 -

.053962

.35000 .73472 .401123 .281619 .165160 -

.037482

.40000 .72755 .381077 .276141 .166401 -

.023792

.45000 .72077 .364000 .270641 .166949 -

.012279

.50000 .71433 .349209 .265211 .167001 -

.002497

.55000 .70816 .336222 .259906 .166692 .005 882

.60000 .70223 .324683 .254757 .166113 .013 112

.65000 .69649 .314330 .249777 .165331 .019 387

.70000 .69093 .304959 .244973 .164397 .024 860

.75000 .68552 .296414 .240345 .163346 .029 654

.80000 .68024 .288571 .235891 .162207 .033 870

.85000 .67508 .281331 .231605 .161000 .037 587

.90000 .67003 .274614 .227480 .159743 .040 874

.95000 .66508 .268353 .223510 .158448 .043 787

1.0000 .66022 .262494 .219687 .157127 .046 373

由软件输出的岭迹图可以看出,变量x4的岭回归系数从负值变为正值。其他的变量都很稳定。说明x4变量与其他变量存在多重共线性,所以剔除变量x4

再用y与剩下的变量作岭回归。所得结果如下:

R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K

K RSQ X1 X2 X3

______ ______ ________ ________ ________

.00000 .75964 .698331 .295891 -.065536

.02000 .75899 .647736 .300306 -.024703

.04000 .75755 .607949 .302710 .006875

.06000 .75574 .575733 .303774 .031943

.08000 .75377 .549026 .303916 .052255

.10000 .75175 .526452 .303409 .068986

.12000 .74972 .507060 .302439 .082951

.14000 .74771 .490172 .301133 .094736

.16000 .74571 .475288 .299581 .104772

.18000 .74375 .462036 .297852 .113383

.20000 .74181 .450130 .295992 .120819

剔除x4之后岭回归系数变化幅度减小很多,并且有下面的图可以看出k值,基本稳定。

参照复决定系数

,当k=0.4时,

=0. 75755仍然很大,所以可以给定k=0.4,重新作岭回归。

Run MATRIX procedure:

****** Ridge Regression with k = 0.4 *****

Mult R .850373821

RSquare .723135635

Adj RSqu .683583583

SE 2.030268037

ANOVA table

df SS MS

Regress 3.000 226.089 75.363

Residual 21.000 86.562 4.122

F value Sig F

18.28313822 .00000456

--------------Variables in the Equation----------------

B SE(B) Beta B/SE(B)

x1 .016739073 .003359156 .372627316 4.983 118685

x2 .156806656 .047550034 .275213878 3.297 719120

x3 .067110931 .032703990 .159221005 2.052 071673

第七章相关与回归分析

第七章 相关与回归分析 一、本章学习要点 (一)相关分析就是研究两个或两个以上变量之间相关程度大小以及用一定函数来表达现象相互关系的方法。现象之间的相互关系可以分为两种,一种是函数关系,一种是相关关系。函数关系是一种完全确定性的依存关系,相关关系是一种不完全确定的依存关系。相关关系是相关分析的研究对象,而函数关系则是相关分析的工具。 相关按其程度不同,可分为完全相关、不完全相关和不相关。其中不完全相关关系是相关分析的主要对象;相关按方向不同,可分为正相关和负相关;相关按其形式不同,可分为线性相关和非线性相关;相关按影响因素多少不同,可分为单相关和复相关。 (二)判断现象之间是否存在相关关系及其程度,可以根据对客观现象的定性认识作出,也可以通过编制相关表、绘制相关图的方式来作出,而最精确的方式是计算相关系数。 相关系数是测定变量之间相关密切程度和相关方向的代表性指标。相关系数用符号“γ”表示,其特点表现在:参与相关分析的两个变量是对等的,不分自变量和因变量,因此相关系数只有一个;相关系数有正负号反映相关系数的方向,正号反映正相关,负号反映负相关;计算相关系数的两个变量都是随机变量。 相关系数的取值区间是[-1,+1],不同取值有不同的含义。当1||=γ时,x 与y 的变量为完全相关,即函数关系;当1||0<<γ时,表示x 与y 存在一定的线性相关,||γ的数值越大,越接近于1,表示相关程度越高;反之,越接近于0,相关程度越低,通常判别标准是:3.0||<γ称为微弱相关,5.0||3.0<<γ称为低度相关,8.0||5.0<<γ称为显著相关,1||8.0<<γ称为高度相关;当0||=γ时,表示y 的变化与x 无关,即不相关;当0>γ时,表示x 与y 为线性正相关,当0<γ时,表示x 与y 为线性负相关。 皮尔逊积距相关系数计算的基本公式是: ∑∑∑∑∑∑∑---= =] )(][)([22222y y n x x n y x xy n y x xy σσσγ 斯皮尔曼等级相关系数和肯特尔等级相关系数是测量两个等级变量(定序测度)之间相 关密切程度的常用指标。 (三)回归分析是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确定一个相应的数学表达式,以便从一个已知量来推测另一个未知量,为估计预测提供一个重要的方法。回归分析按自变量的个数分,有一元回归和多元回归,按回归线的形状分,有线性回归和非线性回归。与相关分析相比,回归分析的特点是:两个变量是不对等的,必须区分自变量和因变量;因变量是随机的,自变量是可以控制的量;对于一个没有因果关系的两变量,可以求得两个回归方程,一个是y 倚x 的回归方程,一个是x 倚y 的回归方程。 简单线性回归方程式为:bx a y c +=,式中c y 是y 的估计值,a 代表直线在y 轴上的截距,b 表示直线的斜率,又称为回归系数。回归系数的涵义是,当自变量x 每增加一个单位时,因变量y 的平均增加值。当b 的符号为正时,表示两个变量是正相关,当b 的符号为负时,表示两个变量是负相关。a 、b 都是待定参数,可以用最小平方法求得。求解a 、b 的公式为: ∑∑∑∑∑--= 2 2)(x x n y x xy n b ; n x b n y a ∑∑-= 回归估计标准误差是衡量因变量的估计值与观测值之间的平均误差大小的指标。利用此 指标可以说明回归方程的代表性。其计算公式为: 2 ) (2 --= ∑n y y S c yx 或2 2 ---= ∑∑∑n xy b y a y S yx 回归估计标准误和相关系数之间具有以下关系:

第7章 相关与回归分析。

第七章相关与回归分析 学习内容 一、变量间的相关关系 二、一元线性回归 三、线性回归方程拟合优度的测定 学习目标 1. 掌握相关系数的含义、计算方法和应用 2. 掌握一元线性回归的基本原理和参数的最小二 3. 掌握回归方程的显著性检验 4. 利用回归方程进行预测 5. 了解可化为线性回归的曲线回归 6. 用Excel 进行回归分析 一、变量间的相关关系 1. 变量间的关系(函数关系) 1)是一一对应的确定关系。 2)设有两个变量x和y,变量y 随变量x一起变化, 并完全依赖于x,当变量x 取某个数值时,y依确定的关系取相应的值, 则称y 是x的函数,记为y = f (x),其中x 称为自变量,y 称为因变量。 3)各观测点落在一条线上。 4)函数关系的例子 –某种商品的销售额(y)与销售量(x)之间的关系可表示为 y = p x (p 为单价)。 –圆的面积(S)与半径之间的关系可表示为S = π R2。 –企业的原材料消耗额(y)与产量x1、单位产量消耗x2、原材料价格x3间的关系可表 示为y =x1 x2 x3。 单选题 下面的函数关系是() A、销售人员测验成绩与销售额大小的关系 B、圆周的长度决定于它的半径 C、家庭的收入和消费的关系 D、数学成绩与统计学成绩的关系

2. 变量间的关系(相关关系) 1)变量间关系不能用函数关系精确表达。 2)一个变量的取值不能由另一个变量唯一确定。 3)当变量 x 取某个值时,变量 y 的取值可能有几个。 4)各观测点分布在直线周围。 5)相关关系的例子 –商品的消费量(y)与居民收入(x)之间的关系。 –商品销售额(y)与广告费支出(x)之间的关系。 –粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度 (x3)之间的关系。 –收入水平(y)与受教育程度(x)之间的关系。 –父亲身高(y)与子女身高(x)之间的关系。 3. 相关图表 1)相关表:将具有相关关系的原始数据,按某一顺序平行排列在一张表上,以观察它 们之间的相互关系。 2)相关图:也称为分布图或散点图,它是在平面直角坐标中把相关关系的原始数据用 点描绘出来,通常以直角坐标轴的横轴代表自变量x,纵轴代表因变量y。 4. 相关关系的类型

应用回归分析,第8章课后习题参考答案

第8章 非线性回归 思考与练习参考答案 8.1 在非线性回归线性化时,对因变量作变换应注意什么问题? 答:在对非线性回归模型线性化时,对因变量作变换时不仅要注意回归函数的形式, 还要注意误差项的形式。如: (1) 乘性误差项,模型形式为 e y AK L αβε =, (2) 加性误差项,模型形式为y AK L αβ ε = + 对乘法误差项模型(1)可通过两边取对数转化成线性模型,(2)不能线性化。 一般总是假定非线性模型误差项的形式就是能够使回归模型线性化的形式,为了方便通常省去误差项,仅考虑回归函数的形式。 8.2为了研究生产率与废料率之间的关系,记录了如表8.15所示的数据,请画出散点图,根据散点图的趋势拟合适当的回归模型。 表8.15 生产率x (单位/周) 1000 2000 3000 3500 4000 4500 5000 废品率y (%) 5.2 6.5 6.8 8.1 10.2 10.3 13.0 解:先画出散点图如下图: 5000.00 4000.003000.002000.001000.00x 12.00 10.00 8.006.00 y

从散点图大致可以判断出x 和y 之间呈抛物线或指数曲线,由此采用二次方程式和指数函数进行曲线回归。 (1)二次曲线 SPSS 输出结果如下: Model Summ ary .981 .962 .942 .651 R R Square Adjusted R Square Std. E rror of the Estimate The independent variable is x. ANOVA 42.571221.28650.160.001 1.6974.424 44.269 6 Regression Residual Total Sum of Squares df Mean Square F Sig.The independent variable is x. Coe fficients -.001.001-.449-.891.4234.47E -007.000 1.417 2.812.0485.843 1.324 4.414.012 x x ** 2 (Constant) B Std. E rror Unstandardized Coefficients Beta Standardized Coefficients t Sig. 从上表可以得到回归方程为:72? 5.8430.087 4.4710y x x -=-+? 由x 的系数检验P 值大于0.05,得到x 的系数未通过显著性检验。 由x 2的系数检验P 值小于0.05,得到x 2的系数通过了显著性检验。 (2)指数曲线 Model Summ ary .970 .941 .929 .085 R R Square Adjusted R Square Std. E rror of the Estimate The independent variable is x.

统计学题目第七章相关与回归分析

(一) 填空题 1、 现象之间的相关关系按相关的程度分有________相关、________相关和_______ 相关;按相关的方向分有________相关和________相关;按相关的形式分有-________相关和________相关;按影响因素的多少分有________相关和-________相关。 2、 对现象之间变量关系的研究中,对于变量之间相互关系密切程度的研究,称为 _______;研究变量之间关系的方程式,根据给定的变量数值以推断另一变量的可能值,则称为_______。 3、 完全相关即是________关系,其相关系数为________。 4、 在相关分析中,要求两个变量都是_______;在回归分析中,要求自变量是 _______,因变量是_______。 5、 person 相关系数是在________相关条件下用来说明两个变量相关________的统 计分析指标。 6、 相关系数的变动范围介于_______与_______之间,其绝对值愈接近于_______, 两个变量之间线性相关程度愈高;愈接近于_______,两个变量之间线性相关程度愈低。当_______时表示两变量正相关;_______时表示两变量负相关。 7、 当变量x 值增加,变量y 值也增加,这是________相关关系;当变量x 值减少, 变量y 值也减少,这是________相关关系。 8、 在判断现象之间的相关关系紧密程度时,主要用_______进行一般性判断,用_______进行数量上的说明。 9、 在回归分析中,两变量不是对等的关系,其中因变量是_______变量,自变量是 _______量。 10、 已知13600))((=----∑y y x x ,14400)(2=--∑x x ,14900)(2=-∑-y y ,那么,x 和y 的相关系数r 是_______。 11、 用来说明回归方程代表性大小的统计分析指标是________指标。 12、 已知1502=xy σ,18=x σ,11=y σ,那么变量x 和y 的相关系数r 是_______。 13、 回归方程bx a y c +=中的参数b 是________,估计特定参数常用的方法是 _________。 14、 若商品销售额和零售价格的相关系数为-0.95,商品销售额和居民人均收入的相关系数为0.85,据此可以认为,销售额对零售价格具有_______相关关系,销售额与人均收入具有_______相关关系,且前者的相关程度_______后者的相关程度。 15、 当变量x 按一定数额变动时,变量y 也按一定数额变动,这时变量x 与y 之间存在着_________关系。 16、 在直线回归分析中,因变量y 的总变差可以分解为_______和_______,用公式表示,即_____________________。 17、 一个回归方程只能作一种推算,即给出_________的数值,估计_________的可能值。 18、 如估计标准误差愈小,则根据回归直线方程计算的估计值就_______ 19、 已知直线回归方程bx a y c +=中,5.17=b ;又知30=n ,∑=13500y ,

应用回归分析课后习题第7章第6题

7.6一家大型商业银行有多家分行,近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高。为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做定量分析,以便找出控制不良贷款的方法。表7-5是该银行所属25家分行2002年的有关业务数据。 (1)计算y 与其余4个变量的简单相关系数。 由系数表可知,y 与其余4个变量的简单相关系数分别为0.844,0.732,0.700,0.519. (2)建立不良贷款对4个自变量的线性回归方程,所得的回归系数是否合理? 由上表可知,回归方程为为: 022.1029.0015.0148.04.0?4321--++=x x x x y 从上表可看出,方程的自变量2x 、3x 、4x 未通过t 检验,说明回归方程不显著,而且由实际意义出发,4x 的系数不能是负的,所以所得的回归系数不合理。 (3)分析回归模型的共线性。

由上表可知,所有自变量对应的VIF 全部小于10,所以自变量之间不存在共线性。但进行特征根检验见下表: 由这个表可以看出来,第5行中1x 、3x 的系数分别为0.87和0.63,可以说明这两个变量之间有共线性。 (4)采用后退法和逐步回归法选择变量,所得的回归系数是否合理?是否还存在共线性? 采用后退法(见上表),所得回归方程为972.0029.0149.0041.0y ?421--+=x x x 采用逐步回归法(见上表),所得回归方程为443.0032.005.0?41--=x x y 所得4x 的系数不合理(为负),说明存在共线性. (5)建立不良贷款y 对4个变量的岭回归。

应用回归分析第2章课后习题参考答案

2.1 一元线性回归模型有哪些基本假定? 答:1. 解释变量 1x , ,2x ,p x 是非随机变量,观测值,1i x ,,2 i x ip x 是常数。 2. 等方差及不相关的假定条件为 ? ? ? ? ? ? ??????≠=====j i n j i j i n i E j i i ,0),,2,1,(,),cov(,,2,1, 0)(2 σεεε 这个条件称为高斯-马尔柯夫(Gauss-Markov)条件,简称G-M 条件。在此条件下,便可以得到关于回归系数的最小二乘估计及误差项方差2σ估计的一些重要性质,如回归系数的最小二乘估计是回归系数的最小方差线性无偏估计等。 3. 正态分布的假定条件为 ???=相互独立 n i n i N εεεσε,,,,,2,1),,0(~212 在此条件下便可得到关于回归系数的最小二乘估计及2σ估计的进一步结果,如它们分别是回归系数的最及2σ的最小方差无偏估计等,并且可以作回归的显著性检验及区间估计。 4. 通常为了便于数学上的处理,还要求,p n >及样本容量的个数要多于解释变量的个数。 在整个回归分析中,线性回归的统计模型最为重要。一方面是因为线性回归的应用最广泛;另一方面是只有在回归模型为线性的假设下,才能的到比较深入和一般的结果;再就是有许多非线性的回归模型可以通过适当的转化变为线性回归问题进行处理。因此,线性回归模型的理论和应用是本书研究的重点。 1. 如何根据样本),,2,1)(;,,,(21n i y x x x i ip i i =求出p ββββ,,,,210 及方差2σ的估计; 2. 对回归方程及回归系数的种种假设进行检验; 3. 如何根据回归方程进行预测和控制,以及如何进行实际问题的结构分析。 2.2 考虑过原点的线性回归模型 n i x y i i i ,,2,1,1 =+=εβ误差n εεε,,,21 仍满足基本假定。求1β的最小二 乘估计。 答:∑∑==-=-=n i n i i i i x y y E y Q 1 1 2112 1)())(()(ββ

应用回归分析,第7章课后习题参考答案

第7章岭回归 思考与练习参考答案 7.1 岭回归估计是在什么情况下提出的? 答:当自变量间存在复共线性时,|X’X|≈0,回归系数估计的方差就很大,估计值就很不稳定,为解决多重共线性,并使回归得到合理的结果,70年代提出了岭回归(Ridge Regression,简记为RR)。 7.2岭回归的定义及统计思想是什么? 答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其统计思想是对于(X’X)-1为奇异时,给X’X加上一个正常数矩阵 D, 那么X’X+D接近奇异的程度就会比X′X接近奇异的程度小得多,从而完成回归。但是这样的回归必定丢失了信息,不满足blue。但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。 7.3 选择岭参数k有哪几种方法? 答:最优 是依赖于未知参数 和 的,几种常见的选择方法是: 岭迹法:选择 的点能使各岭估计基本稳定,岭估计符号合理,回归系数没有不合乎经济意义的绝对值,且残差平方和增大不太多;

方差扩大因子法: ,其对角线元 是岭估计的方差扩大因子。要让 ; 残差平方和:满足 成立的最大的 值。 7.4 用岭回归方法选择自变量应遵循哪些基本原则? 答:岭回归选择变量通常的原则是: 1. 在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量; 2. 当k值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随着k的增加迅速趋近于零。像这样岭回归系数不稳定、震动趋于零的自变量,我们也可以予以剔除; 3. 去掉标准化岭回归系数很不稳定的自变量。如果有若干个岭回归系数不稳定,究竟去掉几个,去掉那几个,要根据去掉某个变量后重新进行岭回归分析的效果来确定。

应用回归分析课后答案

应用回归分析课后答案 第二章一元线性回归 解答:EXCEL结果: SUMMARY OUTPUT 回归统计 Multiple R R Square Adjusted R Square 标准误差 观测值5 方差分析 df SS MS F Significance F 回归分析125 残差3 总计410 Coefficients标准误差t Stat P-value Lower 95%Upper 95%下限%上限% Intercept X Variable 15 RESIDUAL OUTPUT 观测值预测Y残差 1 2 3 4 5 SPSS结果:(1)散点图为:

(2)x 与y 之间大致呈线性关系。 (3)设回归方程为01y x ββ∧ ∧ ∧ =+ 1β∧ = 12 2 1 7()n i i i n i i x y n x y x n x -- =- =-=-∑∑ 0120731y x ββ-∧- =-=-?=- 17y x ∧ ∴=-+可得回归方程为 (4)22 n i=1 1()n-2i i y y σ∧∧=-∑ 2 n 01i=1 1(())n-2i y x ββ∧∧=-+∑ =222 22 13???+?+???+?+??? (10-(-1+71))(10-(-1+72))(20-(-1+73))(20-(-1+74))(40-(-1+75)) []1 169049363 110/3= ++++= 1 330 6.13 σ∧=≈ (5)由于2 11(, )xx N L σββ∧ :

t σ ∧ == 服从自由度为n-2的t分布。因而 /2 |(2)1 P t n α α σ ?? ?? <-=- ?? ?? 也即: 1/211/2 (p t t αα βββ ∧∧ ∧∧ -<<+=1α - 可得 1 95% β∧的置信度为的置信区间为(7-2.3537+2.353即为:(,) 2 2 00 1() (,()) xx x N n L ββσ - ∧ + : t ∧∧ == 服从自由度为n-2的t分布。因而 /2 (2)1 P t n α α ∧ ?? ?? ?? <-=- ?? ?? ?? ?? ?? 即 0/200/2 ()1 pβσββσα ∧∧∧∧ -<<+=- 可得 1 95%7.77,5.77 β∧- 的置信度为的置信区间为() (6)x与y的决定系数 2 21 2 1 () 490/6000.817 () n i i n i i y y r y y ∧- = - = - ==≈ - ∑ ∑ (7)

应用回归分析第七章答案

第七章岭回归 1.岭回归估计是在什么情况下提出的? 答:当解释变量间出现严重的多重共线性时,用普通最小二乘法估计模型参数,往往参数估计方差太大,使普通最小二乘法的效果变得很不理想,为了解决这一问题,统计学家从模型和数据的角度考虑,采用回归诊断和自变量选择来克服多重共线性的影响,这时,岭回归作为一种新的回归方法被提出来了。 2.岭回归估计的定义及其统计思想是什么? 答:一种改进最小二乘估计的方法叫做岭估计。当自变量间存在多重共线性,∣X'X∣≈0时,我们设想给X'X加上一个正常数矩阵kI(k>0),那么X'X+kI 接近奇异的程度小得多,考虑到变量的量纲问题,先对数据作标准化,为了计算方便,标准化后的设计 阵仍然用X表示,定义为 ()()1 ?'' X X I X y βκκ- =+ ,称为 β的岭回归估计,其中k 称为岭参数。 3.选择岭参数k有哪几种主要方法? 答:选择岭参数的几种常用方法有1.岭迹法,2.方差扩大因子法,3.由残差平方和来确定k值。 4.用岭回归方法选择自变量应遵从哪些基本原则? 答:用岭回归方法来选择变量应遵从的原则有: (1)在岭回归的计算中,我们假定设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小,我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。 (2)当k值较小时标准化岭回归系数的绝对值并不是很小,但是不稳定,随着k的增加迅速趋于零。像这样的岭回归系数不稳定,震动趋于零的自变量,我们也可以予以删除。 (3)去掉标准化岭回归系数很不稳定的自变量,如果有若干个岭回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。 5.对第5章习题9的数据,逐步回归的结果只保留了3个自变量x1,x2,x5,用y对这3个自变量做岭回归分析。 答:依题意,对逐步回归法所保留的三个自变量做岭回归分析。 程序为: include'C:\Program Files\SPSSEVAL\Ridge regression.sps'. ridgereg dep=y/enter x1 x2 x5 /start=0.0/stop=1/inc=0.01.

第七章 相关分析与回归分析(补充例题)

第七章 相关分析与回归分析 例1、有10个同类企业的固定资产和总产值资料如下: 根据以上资料计算(1)协方差和相关系数;(2)建立以总产值为因变量的一元线性回归方程;(3)当固定资产改变200万元时,总产值平均改变多少?(4)当固定资产为1300万元时,总产值为多少? 解:计算表如下: (1)协方差——用以说明两指标之间的相关方向。 2 2) )((n y x xy n n y y x x xy ∑∑∑∑- = - -= σ

35.126400100 9801 6525765915610>=?-?= 计算得到的协方差为正数,说明固定资产和总产值之间存在正相关关系。 (2)相关系数用以说明两指标之间的相关方向和相关的密切程度。 ∑∑∑ ∑∑∑∑--- = ] )(][) ([2 2 2 2 y y n x x n y x xy n r 95 .0) 980110866577 10()6525566853910(9801 65257659156102 2 =-??-??-?= 计算得到的相关系数为0.95,表示两指标为高度正相关。 (3) 2 2 26525 56685391098016525765915610) (-??-?= --= ∑∑∑∑∑x x n y x xy n b 90 .014109765 126400354257562556685390 6395152576591560== --= 85 .39210 65259.010 9801=? -= -=x b y a 回归直线方程为: x y 9.085.392?+= (4)当固定资产改变200万元时,总产值平均改变多少? x y ?=?9.0,180 2009.0|200=?=?=?x y 万元 当固定资产改变200万元时,总产值平均增加180万元。 (5)当固定资产为1300万元时,总产值为多少? 85 .156213009.085.392|1300=?+==x y 万元 当固定资产为1300万元时,总产值为1562.85万元。 例2、试根据下列资产总值和平均每昼夜原料加工量资料计算相关系数。

应用回归分析第三章课后习题整理

y1 1 x11 x12 x1p 0 1 3.1 y2 1 x21 x22 x2p 1 + 2 即y=x + yn 1 xn1 xn2 xnp p n 基本假定 (1) 解释变量x1,x2…,xp 是确定性变量,不是随机变量,且要求 rank(X)=p+1

n 注 tr(H) h 1 3.4不能断定这个方程一定很理想,因为样本决定系数与回归方程中 自变量的数目以及样本量n 有关,当样本量个数n 太小,而自变量又较 多,使样本量与自变量的个数接近时, R 2易接近1,其中隐藏一些虚 假成分。 3.5当接受H o 时,认定在给定的显著性水平 下,自变量x1,x2, xp 对因变量y 无显著影响,于是通过x1,x2, xp 去推断y 也就无多大意 义,在这种情况下,一方面可能这个问题本来应该用非线性模型去描 述,而误用了线性模型,使得自变量对因变量无显著影响;另一方面 可能是在考虑自变量时,把影响因变量y 的自变量漏掉了,可以重新 考虑建模问题。 当拒绝H o 时,我们也不能过于相信这个检验,认为这个回归模型 已经完美了,当拒绝H o 时,我们只能认为这个模型在一定程度上说明 了自变量x1,x2, xp 与自变量y 的线性关系,这时仍不能排除排除我 们漏掉了一些重要的自变量。 3.6中心化经验回归方程的常数项为0,回归方程只包含p 个参数估计 值1, 2, p 比一般的经验回归方程减少了一个未知参数,在变量较 SSE (y y)2 e12 e22 1 2 1 E( ) E( - SSE* - n p 1 n p n 2 [D(e) (E(e ))2 ] 1 n (1 1 n 2 en n E( e 1 1 n p 1 1 n p 1 1 "1 1 n p 1 J (n D(e) 1 (p 1)) 1_ p 1 1 1 n p 1 2 2 n E(e 2 ) (1 h ) 2 1

应用回归分析,第7章课后习题参考答案

第7章 岭回归 思考与练习参考答案 7.1 岭回归估计是在什么情况下提出的? 答:当自变量间存在复共线性时,|X’X |≈0,回归系数估计的方差就很大, 估计值就很不稳定,为解决多重共线性,并使回归得到合理的结果,70年代提出了岭回归(Ridge Regression,简记为RR)。 7.2岭回归的定义及统计思想是什么? 答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其 统计思想是对于(X ’X )-1为奇异时,给X’X 加上一个正常数矩阵D, 那么X’X+D 接近奇异的程度就会比X ′X 接近奇异的程度小得多,从而完成回归。但是这样的回归必定丢失了信息,不满足blue 。但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。 7.3 选择岭参数k 有哪几种方法? 答:最优k 是依赖于未知参数β和2σ的,几种常见的选择方法是: ○ 1岭迹法:选择0k 的点能使各岭估计基本稳定,岭估计符号合理,回归系数没有不合乎经济意义的绝对值,且残差平方和增大不太多; ○ 2方差扩大因子法:11()()()c k X X kI X X X X kI --'''=++,其对角线元()jj c k 是岭估计的方差扩大因子。要让()10jj c k ≤; ○ 3残差平方和:满足()SSE k cSSE <成立的最大的k 值。 7.4 用岭回归方法选择自变量应遵循哪些基本原则? 答:岭回归选择变量通常的原则是: 1. 在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这 样可以直接比较标准化岭回归系数的大小。我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量; 2. 当k 值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随

应用回归分析课后习题参考答案

应用回归分析课后习题 参考答案 Document number【SA80SAB-SAA9SYT-SAATC-SA6UT-SA18】

第二章一元线性回归分析 思考与练习参考答案 一元线性回归有哪些基本假定 答:假设1、解释变量X是确定性变量,Y是随机变量; 假设2、随机误差项ε具有零均值、同方差和不序列相关性:E(ε i )=0 i=1,2, …,n Var (ε i )=2i=1,2, …,n Cov(ε i, ε j )=0 i≠j i,j= 1,2, …,n 假设3、随机误差项ε与解释变量X之间不相关: Cov(X i , ε i )=0 i=1,2, …,n 假设4、ε服从零均值、同方差、零协方差的正态分布 ε i ~N(0, 2) i=1,2, …,n 考虑过原点的线性回归模型 Y i =β 1 X i +ε i i=1,2, …,n 误差εi(i=1,2, …,n)仍满足基本假定。求β1的最小二乘估计解: 得: 证明(式),e i =0 ,e i X i=0 。 证明: ∑ ∑+ - = - = n i i i n i X Y Y Y Q 1 2 1 2 1 )) ? ?( ( )? (β β 其中: 即:e i =0 ,e i X i=0 2 1 1 1 2) ? ( )? ( i n i i n i i i e X Y Y Y Qβ ∑ ∑ = = - = - = ) ? ( 2 ?1 1 1 = - - = ? ?∑ = i i n i i e X X Y Q β β ) ( ) ( ? 1 2 1 1 ∑ ∑ = = = n i i n i i i X Y X β 01 ?? ?? i i i i i Y X e Y Y ββ =+=- 01 00 ?? Q Q ββ ?? == ??

应用回归分析-第7章课后习题参考答案

应用回归分析-第7章课后习题参考答案

第7章 岭回归 思考与练习参考答案 7.1 岭回归估计是在什么情况下提出的? 答:当自变量间存在复共线性时,|X’X |≈0,回归系数估计的方差就很大, 估计值就很不稳定,为解决多重共线性,并使回归得到合理的结果,70年代提出了岭回归(Ridge Regression,简记为RR)。 7.2岭回归的定义及统计思想是什么? 答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其统计思想是对于(X ’X )-1为奇异时,给X’X 加上一个正常数矩阵D, 那么X ’X+D 接近奇异的程度就会比X ′X 接近奇异的程度小得多,从而完成回归。但是这样的回归必定丢失了信息,不满足blue 。但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。 7.3 选择岭参数k 有哪几种方法? 答:最优k 是依赖于未知参数β和2σ的,几种常见的选择方法是: ○ 1岭迹法:选择0k 的点能使各岭估计基本稳定,岭估计符号合理,回归系数没有不合乎经济意义的绝对值,且残差平方和增大不太 多; ○ 2方差扩大因子法:11()()()c k X X kI X X X X kI --'''=++,其对角线元()jj c k 是岭估计的方差扩大因子。要让()10jj c k ≤; ○ 3残差平方和:满足()SSE k cSSE <成立的最大的k 值。 7.4 用岭回归方法选择自变量应遵循哪些基本原则? 答:岭回归选择变量通常的原则是: 1. 在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这 样可以直接比较标准化岭回归系数的大小。我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量;

第一章课后习题解答(应用回归分析)

1、 变量间统计关系和函数关系的区别是什么 答:函数关系是一种确定性的关系,一个变量的变化能完全决定另一个变量的变化;统计关系是非确定的,尽管变量间的关系密切,但是变量不能由另一个或另一些变量唯一确定。 2、 回归分析与相关分析的区别和联系是什么 答:联系:刻画变量间的密切联系; 区别:一、回归分析中,变量y 称为因变量,处在被解释的地位,而在相关分析中,变量y 与x 处于平等地位;二、相关分析中y 与x 都是随机变量,而回归分析中y 是随机的,x 是非随机变量。三、回归分析不仅可以刻画线性关系的密切程度,还可以由回归方程进行预测和控制。 3、 回归模型中随机误差项ε的意义是什么主要包括哪些因素 答:随机误差项ε的引入,才能将变量间的关系描述为一个随机方程。主要包括:时间、费用、数据质量等的制约;数据采集过程中变量观测值的观测误差;理论模型设定的误差;其他随机误差。 4、 线性回归模型的基本假设是什么 答:1、解释变量非随机;2、样本量个数要多于解释变量(自变量)个数;3、高斯-马尔科夫条件;4、随机误差项相互独立,同分布于2(0,)N σ。 5、 回归变量设置的理论根据在设置回归变量时应注意哪些问题 答:因变量与自变量之间的因果关系。需注意问题:一、对所研究的问题背景要有足够了解;二、解释变量之间要求不相关;三、若某个重要的变量在实际中没有相应的统计数据,应考虑用相近的变量代替,或者由其他几个指标复合成一个新的指标;四、解释变量并非越多越好。 6、 收集、整理数据包括哪些内容 答:一、收集数据的类型(时间序列、截面数据);二、数据应注意可比性和数据统计口径问题(统计范围);三、整理数据时要注意出现“序列相关”和“异

应用回归分析,第4章课后习题参考答案.

第4章违背基本假设的情况 思考与练习参考答案 4.1 试举例说明产生异方差的原因。 答:例4.1:截面资料下研究居民家庭的储蓄行为 Y i=β0+β1X i+εi 其中:Y i表示第i个家庭的储蓄额,X i表示第i个家庭的可支配收入。 由于高收入家庭储蓄额的差异较大,低收入家庭的储蓄额则更有规律性,差异较小,所以εi的方差呈现单调递增型变化。 例4.2:以某一行业的企业为样本建立企业生产函数模型 Y i=A iβ1K iβ2L iβ3eεi 被解释变量:产出量Y,解释变量:资本K、劳动L、技术A,那么每个企业所处的外部环境对产出量的影响被包含在随机误差项中。由于每个企业所处的外部环境对产出量的影响程度不同,造成了随机误差项的异方差性。这时,随机误差项ε的方差并不随某一个解释变量观测值的变化而呈规律性变化,呈现复杂型。 4.2 异方差带来的后果有哪些? 答:回归模型一旦出现异方差性,如果仍采用OLS估计模型参数,会产生下列不良后果: 1、参数估计量非有效 2、变量的显著性检验失去意义 3、回归方程的应用效果极不理想 总的来说,当模型出现异方差性时,参数OLS估计值的变异程度增大,从而造成对Y的预测误差变大,降低预测精度,预测功能失效。 4.3 简述用加权最小二乘法消除一元线性回归中异方差性的思想与方法。 答:普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。其中每个平方项的权数相同,是普通最小二乘回归参数估计方法。在误差项等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。然而在异方差

的条件下,平方和中的每一项的地位是不相同的,误差项的方差大的项,在残差平方和中的取值就偏大,作用就大,因而普通最小二乘估计的回归线就被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。由OLS 求出的仍然是的无偏估计,但不再是最小方差线性无偏估计。所以就是:对较大的残差平方赋予较小的权数,对较小的残差平方赋予较大的权数。这样对残差所提供信息的重要程度作一番校正,以提高参数估计的精度。 加权最小二乘法的方法: 4.4简述用加权最小二乘法消除多元线性回归中异方差性的思想与方法。 答:运用加权最小二乘法消除多元线性回归中异方差性的思想与一元线性回归的类似。多元线性回归加权最小二乘法是在平方和中加入一个适当的权数i w ,以调整各项在平方和中的作用,加权最小二乘的离差平方和为: ∑=----=n i ip p i i i p w x x y w Q 1211010)( ),,,(ββββββ (2) 加权最小二乘估计就是寻找参数p βββ,,,10 的估计值pw w w βββ?,,?,?10 使式(2)的离差平方和w Q 达极小。所得加权最小二乘经验回归方程记做 22011 1 ???()()N N w i i i i i i i i Q w y y w y x ββ===-=--∑∑22 __ 1 _ 2 _ _ 02 222 ()() ?()?1 11 1 ,i i N w i i i w i w i w w w w w kx i i i i m i i i m i w x x y y x x y x w kx x kx w x σβββσσ==---=-= = ===∑∑1N i =1 1表示=或

第七章 相关与回归分析s

第七章 相关回归分析 皮尔逊线性相关系数计算的基本公式: (简捷法) ])(][)([(积差法)22222∑∑∑∑∑∑∑--- ==y y n x x n y x xy n s s s y x xy γ 简单线性回归方程式为:bx a y c +=, 式中c y 是y 的估计值,a 代表直线在y 轴上的截距,b 表示直线的斜率,又称为回归系数。回归系数的涵义是,当自变量x 每增加一个单位时,因变量y 的平均增加值。 当b 的符号为正时,表示两个变量是正相关,当b 的符号为负时,表示两个变量是负相关。a 、b 都是待定参数,可以用最小平方法求得。 求解a 、b 的公式为: ∑∑∑∑∑--=22) (x x n y x xy n b ; n x b n y a ∑∑-= 相关系数与回归系数之间具有以下的关系: x y s s r b = (一) 填空题 1.在相关关系中,把具有因果关系相互联系的两个变量中起影响作用的变量称为_______,把另一个说明观察结果的变量称为________。 2.现象之间的相关关系按相关的程度分有________相关、________相关、________相关和_______相关;按相关的方向分有________相关和______ _相关;按影响因素的多少分有________相关和________相关。 3.对现象之间变量关系的研究中,对于变量之间相互关系密切程度的研究,称为_______;研究变量之间关系的方程式,根据给定的变量数值以推断另一变量的可能值,则称为_______。 4.完全相关即是________关系,其相关系数为________。 5.相关系数的变动范围介于_______与_______之间,其绝对值愈接近于_______,两个变量之间线性相关程度愈高;愈接近于_______,两个变量之间线性相关程度愈低。当_______时表示两变量正相关;_______时表示两变量负相关。 6.当变量x 值增加,变量y 值也增加,这是________相关关系;当变量x 值减少,变量y 值也减少,这是________相关关系。 7.已知13600))((=----∑y y x x ,14400)(2=--∑x x ,14900)(2 =-∑-y y ,那么,x 和y 的相关系数r 是_______。 8.已知1502=xy s ,18=x s ,11=y s ,那么变量x 和y 的相关系数r 是_______。 9.已知直线回归方程bx a y c +=中,5.17=b ;又知30=n , ∑=13500y ,12=- x , 则可知_______=a 。

《统计学》 第七章 相关分析与回归分析(补充例题)

第七章 相关分析与回归分析 (3)当固定资产改变200万元时,总产值平均改变多少?(4)当固定资产为1300万元时,总产值为多少? (1)协方差——用以说明两指标之间的相关方向。 2 2))((n y x xy n n y y x x xy ∑∑∑∑-= --=σ 035.126400100 9801 6525765915610>=?-?= 计算得到的协方差为正数,说明固定资产和总产值之间存在正相关关系。 (2)相关系数用以说明两指标之间的相关方向和相关的密切程度。 ∑∑∑∑∑∑∑---= ] )(][)([2222y y n x x n y x xy n r

95.0) 98011086657710()6525566853910(9801 65257659156102 2 =-??-??-?= 计算得到的相关系数为0.95,表示两指标为高度正相关。 (3) 2 226525 5668539109801 6525765915610)(-??-?=--= ∑∑∑∑∑x x n y x xy n b 90.014109765 12640035 42575625566853906395152576591560==--= 85.39210 6525 9.0109801=?-= -=x b y a 回归直线方程为: x y 9.085.392?+= (4)当固定资产改变200万元时,总产值平均改变多少? x y ?=?9.0,1802009.0|200=?=?=?x y 万元 当固定资产改变200万元时,总产值平均增加180万元。 (5)当固定资产为1300万元时,总产值为多少? 85.156213009.085.392|1300=?+==x y 万元 当固定资产为1300万元时,总产值为1562.85万元。 例2、试根据下列资产总值和平均每昼夜原料加工量资料计算相关系数。 解:【分析】本题中“企业数”应看成资产总值和平均每昼夜原料加工量两变量的次数,在计算相关系数的过程,要进行“加权”。

相关文档
最新文档