《应用回归试分析》试题答案
一、一家保险公司十分关心其总公司营业部加班的程度,决定认真调查现状。经十周时间,收集了每周加班时间的数据和签发的新保单数目,x 为每周签发的新保单数目,y 为每周加
(3)设回归方程为
01y x β
β∧
∧
∧
=+
1
12
2
1(2637021717)
0.0036(71043005806440)
()n
i i
i n
i
i x y n x
y
x
n x --
=-
=--β==
=--∑∑
01 2.850.00367620.1068y x ββ-
∧-
=-=-?=
0.10680.0036y
x ∧
∴=+可得回归方程为
(4) 22
n i=11()n-2i i y y σ∧∧=-∑ 2
n
01i=1
1(())n-2i y x ββ∧∧=-+∑=0.2305 σ
∧
=0.4801
(5)
由于2
11(,
)xx
N L σ
ββ∧
: t σ
∧
=
=
服从自由度为n-2的t 分布。因而
/2|(2)1P t n αασ??
??<-=-??
??
也即:1/2
11/2
(p t t ααβββ∧
∧
∧
∧
-<<+=1α-
可得195%β∧
的置信度为的置信区间为
0.4801/??(0.0036-1.8600.0036+1.860
即为:(0.0028,0.0044)
2
2001()
(,())xx
x N n
L ββσ-
∧
+
:
t ∧
∧
==
服从自由度为n-2的t 分布。因而
/2(2)1P t n αα∧??????<-=-??????????
即0/200/2()1p βσ
ββσα∧∧
∧
∧
-<<+=- 095%0.3567,0.5703β∧
-可得的置信度为的置信区间为()
(6)x 与y 的决定系数 2
2
1
2
1
()
()
n
i
i n
i
i y y r y y ∧-
=-=-=
=
-∑∑16.82027
18.525
=0.908
(7)
ANOV A
x
平方和 df
均方
F 显著性
组间
(组合) 1231497.500 7 175928.214 5.302
.168 线性项 加权的
1168713.036 1 1168713.036 35.222 .027 偏差
62784.464 6 10464.077 .315
.885
组内 66362.500 2 33181.250 总数
1297860.000
9
由于(1,9)F F α>,拒绝0H ,说明回归方程显著,x 与y 有显著的线性关系。
(8) t σ
∧
=
=
其中2
2
211
11()22n n
i i i i i e y y n n σ∧∧====---∑∑ 0.00368.5420.04801
=
= /2 1.895t α= /28.542t t α=>
∴接受原假设01:0,H β=认为1β显著不为0,因变量y 对自变量x 的一元线性回归成立。
(9) 相关系数
()()
n
i
i
x x y y L r --
--=
=
∑
0.9489=
r 小于表中1%α=的相应值同时大于表中5%α=的相应值,∴x 与y 有显著的线性关系.
(11)001000 3.7x ∧
==新保单时,需要加班的时间为y 小时。
(12
)00/2y (y t n αα∧∧
±-的置信概率为1-的置信区间精确为, 即为(2.7,4.7)
近似置信区间为:02y σ∧
∧
±,即(2.74,4.66)
(13)可得置信水平为α1-的置信区间
为0/2(y t n α∧
∧
±-,即为(3.33,4.07). 二、
2SSR
R SST =
2211()y y r r =利用计算机求1y r 求2
2:1y r 利用下面的公式简单
三者的关系2
2
2
12:11(1)(1)y y R r r =----
等级相关系数 22
1
61(1)
n
s i
i r d n n
==-
-∑
相关系数 ()()
n
i
i
xy xx yy
x x y y L r L L --
--=
=
∑
四、逐步回归法
逐步回归的基本思想是有进有出。具体做法是将变量一个一个的引入,每引入一个变量后,对已选入的变量进行逐个检验,当原引入的变量由于后面变量的引入而变得不再明显时,要将其剔除。引入一个变量或从回归方程中 剔除一个变量,为逐步回归的一步,每一步都要进行F 检验,以确保每次引入新的变量之前回归方程中只包含显著的变量。这个过程反复进行,直到既无显著的自变量选入回归方程,也无不显著的自变量除为止。这样避免了前进法和后退法各自的缺陷,保证了最后所得的回归子集是最优回归子集。
注意的问题:引入自变量和剔除自变量的显著水平α值是不同的,要求引入自变量的显著
水平α
进小于剔除自变量的显著水平α
出
否则可能产生死循环。也就是当α≥α
进出
时,如果
某个自变量的显著性P值在α
进
与α出之间,那么这个自变量将会被引入剔除再引入再剔除,循环往复,以至无穷.
五、
一、岭际法
岭迹法选择k值的一般原则是::
(1)各回归系数的岭估计基本稳定;
(2)用最小二乘估计时符号不合理的回归系数,其岭估计的符号变得合理;
(3)回归系数没有不合乎经济意义的绝对值;(4)残差平方和增大不太多。
二、方差扩大因子法
方差扩大因子c jj度量了多重共线性的严重程度,计算岭估计(k)
β?的协方差阵,得D((k)
β?)=cov((k)
β?,(k)
β?)=cov((X′X+k I)-1X′y,(X′X+k I)-1X′y)
=(X′X+k I)-1X′cov(y,y)X(X′X+k I)-1=σ2(X′X+k I)-1X′X(X′X+k I)-1
=σ2(c ij(k))
式中矩阵C ij(k)的对角元c jj(k)就是岭估计的方差扩大因子。
不难看出,c jj(k)随着k的增大而减少。选择k使所有方差扩大因子c jj(k)≤10。
三、由残差平方和来确定k值
岭估计在减小均方误差的同时增大了残差平方和,我们希望岭回归的残差平方和SSE (k)的增加幅度控制在一定的限度以内,可以给定一个大于1的c值,要求:
SSE(k)<c SSE (7.3)
寻找使(7.3)式成立的最大的k值。在后边的例子中我们将会看到对该方法的应用