《应用回归试分析》试题答案

一、一家保险公司十分关心其总公司营业部加班的程度，决定认真调查现状。经十周时间，收集了每周加班时间的数据和签发的新保单数目，x 为每周签发的新保单数目，y 为每周加

（3）设回归方程为

01y x β

β∧

∧

1(2637021717)

0.0036(71043005806440)

()n

i i

i n

i x y n x

n x --

=--β==

=--∑∑

01 2.850.00367620.1068y x ββ-

∧-

=-=-?=

0.10680.0036y

x ∧

∴=+可得回归方程为

(4) 22

n i=11()n-2i i y y σ∧∧=-∑ 2

01i=1

1(())n-2i y x ββ∧∧=-+∑=0.2305 σ

∧

=0.4801

(5)

由于2

11(,

)xx

N L σ

ββ∧

: t σ

∧

服从自由度为n-2的t 分布。因而

/2|(2)1P t n αασ??

??<-=-??

也即：1/2

11/2

(p t t ααβββ∧

∧

-<<+=1α-

可得195%β∧

的置信度为的置信区间为

0.4801/??（0.0036-1.8600.0036+1.860

即为：（0.0028，0.0044）

2001()

(,())xx

x N n

L ββσ-

∧

t ∧

∧

服从自由度为n-2的t 分布。因而

/2(2)1P t n αα∧??????<-=-??????????

即0/200/2()1p βσ

ββσα∧∧

∧

-<<+=- 095%0.3567,0.5703β∧

-可得的置信度为的置信区间为（）

(6)x 与y 的决定系数 2

()

i n

i y y r y y ∧-

=-=-=

-∑∑16.82027

18.525

=0.908

(7)

ANOV A

平方和 df

均方

F 显著性

组间

（组合） 1231497.500 7 175928.214 5.302

.168 线性项加权的

1168713.036 1 1168713.036 35.222 .027 偏差

62784.464 6 10464.077 .315

.885

组内 66362.500 2 33181.250 总数

1297860.000

由于(1,9)F F α>,拒绝0H ,说明回归方程显著，x 与y 有显著的线性关系。

(8) t σ

∧

其中2

211

11()22n n

i i i i i e y y n n σ∧∧====---∑∑ 0.00368.5420.04801

= /2 1.895t α= /28.542t t α=>

∴接受原假设01:0,H β=认为1β显著不为0，因变量y 对自变量x 的一元线性回归成立。

(9) 相关系数

()()

x x y y L r --

--=

∑

0.9489=

r 小于表中1%α=的相应值同时大于表中5%α=的相应值，∴x 与y 有显著的线性关系.

(11)001000 3.7x ∧

==新保单时，需要加班的时间为y 小时。

（12

）00/2y (y t n αα∧∧

±-的置信概率为1-的置信区间精确为, 即为（2.7，4.7）

近似置信区间为：02y σ∧

∧

±，即（2.74，4.66）

（13）可得置信水平为α1-的置信区间

为0/2(y t n α∧

∧

±-，即为（3.33，4.07）. 二、

2SSR

R SST =

2211()y y r r =利用计算机求1y r 求2

2:1y r 利用下面的公式简单

三者的关系2

12:11(1)(1)y y R r r =----

等级相关系数 22

61(1)

s i

i r d n n

==-

-∑

相关系数 ()()

xy xx yy

x x y y L r L L --

--=

∑

四、逐步回归法

逐步回归的基本思想是有进有出。具体做法是将变量一个一个的引入，每引入一个变量后，对已选入的变量进行逐个检验，当原引入的变量由于后面变量的引入而变得不再明显时，要将其剔除。引入一个变量或从回归方程中剔除一个变量，为逐步回归的一步，每一步都要进行F 检验，以确保每次引入新的变量之前回归方程中只包含显著的变量。这个过程反复进行，直到既无显著的自变量选入回归方程，也无不显著的自变量除为止。这样避免了前进法和后退法各自的缺陷，保证了最后所得的回归子集是最优回归子集。

注意的问题：引入自变量和剔除自变量的显著水平α值是不同的，要求引入自变量的显著

水平α

进小于剔除自变量的显著水平α

出

否则可能产生死循环。也就是当α≥α

进出

时,如果

某个自变量的显著性P值在α

进

与α出之间，那么这个自变量将会被引入剔除再引入再剔除，循环往复，以至无穷.

五、

一、岭际法

岭迹法选择k值的一般原则是：:

（1）各回归系数的岭估计基本稳定；

（2）用最小二乘估计时符号不合理的回归系数，其岭估计的符号变得合理；

（3）回归系数没有不合乎经济意义的绝对值；（4）残差平方和增大不太多。

二、方差扩大因子法

方差扩大因子c jj度量了多重共线性的严重程度，计算岭估计(k)

β?的协方差阵，得D（(k)

β?）=cov（(k)

β?，(k)

β?）=cov（(X′X+k I)-1X′y，(X′X+k I)-1X′y）

=(X′X+k I)-1X′cov（y，y）X(X′X+k I)-1=σ2(X′X+k I)-1X′X(X′X+k I)-1

=σ2(c ij（k）)

式中矩阵C ij(k)的对角元c jj(k)就是岭估计的方差扩大因子。

不难看出，c jj(k)随着k的增大而减少。选择k使所有方差扩大因子c jj(k)≤10。

三、由残差平方和来确定k值

岭估计在减小均方误差的同时增大了残差平方和，我们希望岭回归的残差平方和SSE （k）的增加幅度控制在一定的限度以内，可以给定一个大于1的c值，要求：

SSE（k）＜c SSE （7.3）

寻找使（7.3）式成立的最大的k值。在后边的例子中我们将会看到对该方法的应用