第14章思考与练习
![第14章思考与练习](https://img.360docs.net/img61/1beokfdjssd7u02i0jy2vt1phlmh9dxs-11.webp)
![第14章思考与练习](https://img.360docs.net/img61/1beokfdjssd7u02i0jy2vt1phlmh9dxs-a2.webp)
第十四章 直线回归分析
【思考与习题】
一、思考题
1.试述建立直线回归方程的步骤以及散点图的作用。
2.如何将方差分析运用于回归系数的假设检验简述其思想。 3.简述直线相关和直线回归的区别与联系。 4.对回归系数进行假设检验可以采用哪些方法
二、案例辨析题
某研究采用火箭电泳法对已知浓度的标准血清进行测量,其免疫球蛋白IgA 浓度(μg/ml)和火箭电泳高度(mm)如表14-1所示。研究者据此数据建立直线回归方程,用于测定未知样品血清中的IgA 浓度,以上分析正确吗
~
表14-1 标准品的IgA 浓度(μg/ml)和火箭电泳高度(mm)
】
采用最小二乘法建立直线回归方程,得到? 5.335 1.599y
x =+,经假设检验得001.0
标准品的IgA 浓度 x
火箭电泳高度 y
…
。
三、最佳选择题 |
1. 对于一组服从双变量正态分布的资料,经直线相关分析得相关系数0r >,若对该资料拟合回归直线,其回归系数 A .0b > B .0b < C .0b = D .11b -<< E .1>b
2. 一组服从双变量正态分布的资料,经直线相关分析得相关系数1r =-,则有 A .SS =残总SS B .SS SS =残回 C .SS SS =总回 【
D .回残MS MS =
E .回总MS MS =
3.直线回归中x 与y 的标准差相等时,则有 A .b a = B .b r =
C .1b =
D .1r =
E .1a =
4.若直线回归系数0b =,则一定有 A .截距等于0 @
B .截距等于y
C .SS 残等于0
D .SS 总等于0
E .SS 残等于SS 回
5.两组服从双变量正态分布的资料,若两样本12b b =,12n n >,则有
A .12r r >
B .12b b t t =
C .12r r >
D .11b r t t =
E .12r r t t =
]
6.最小二乘法的原理是各观测点
A .距回归直线的纵向距离相等
B .距回归直线的纵向距离平方和最小
C .距回归直线的垂直距离相等
D .距回归直线的垂直距离平方和最小
E .距回归直线的纵向距离最小
7.直线回归分析中,按直线方程?0.0040.0588y
x =+,代入两点绘制回归直线,以下选项中正确的是
A .所有实测点都应在回归直线上
B .所绘回归直线必过点(,)x y
C .回归直线必过原点
-
D .x 的取值范围为[1,1]-
E .实测值与估计值之差的平方和必小于零
8.同一资料进行直线回归与直线相关分析时,下列说法正确的是 A .0ρ=时,则0r = B .||0r >时,则0b >
C .0r <时,则0b >
D .0r <时,则0b <
E .||1b ≤
四、综合分析题 ~
1. 为了研究女大学生胸围(cm)与肺活量(L)的关系,随机抽取某高校一年级女生15名,测量其胸围与肺活量数据如表14-2所示。
表14-2 15名一年级女大学生的胸围(cm)与肺活量(L)
学生编号胸围x肺活量y
1
2~
3
4
5
》
6
7
8
9:
10
11
12)
13
14
15
—
(1) 建立肺活量y与胸围x的回归方程;
(2) 用两种方法对回归系数进行假设检验;
(3) 计算总体回归系数的95%置信区间;
2.为研究肺癌患者肺组织中的DNA加合物含量(个/108核苷酸)与吸烟的关系,某研究者用“同位素标记法”测定了12名肺癌患者肺组织中DNA加合物含量(y),并调查其每日吸烟量(x),结果如表14-3所示。
表14-3 肺组织中DNA加合物含量(个/108核苷酸)与每日吸烟量(支/天)
x5510:151515202020252530 y:'
(1) 问该资料有无可疑的离群点
(2) 试建立直线回归方程来分析肺组织中DNA加合物含量y与每日吸烟量x之间的关系。
【习题解析】
一、思考题
1.建立直线回归方程的步骤:①绘制自变量与应变量的散点图,观察是否有可疑的离群值及两变量是否有直线趋势;②利用最小二乘法计算回归系数b 及截距a ,得到样本回归方程;③对回归系数进行假设检验。在此过程中应当注意考察资料是否满足模型假设条件,即应变量与自变量关系是否为线性、误差是否服从正态分布且方差相等、各观测值是否独立等。通过散点图可以初步考察两变量间是否有直线关系及识别可能的离群值。
2.方差分析的基本思想是将总的变异按照设计和需要分解成2个或2个以上的部分,在对回归系数的假设检验中,将应变量y 的变异总SS 分解为可以用y 与x 的直线关系解释的部分回SS 和不能用y 与x 的线性关系解释的部分残SS ,如果两变量间直线关系确实存在,回归的均方应大于误差的均方,大到何种程度时可以认为具有统计学意义,可根据回SS 与残SS 的关系构造检验统计量F ,
//MS SS F MS SS νν=
=回回回残
残残
。在0=β成立的假设下,F 服从自由度为ν回、ν残的F 分布,
可根据F 分布曲线下面积确定P 值,作出统计推断结论。
3. 区别:①资料要求上:直线相关要求x 、y 服从双变量正态分布;而直线回归要求y 在给定某个x 值时服从正态分布,x 须为可精确测量和严格控制的值。②应用上:说明两变量间相互关系用相关,此时两变量的关系是平等的;而说明应变量y 和自变量x 在数量上的依存关系则用直线回归分析。③意义上:相关系数r 说明两变量直线相关的方向与密切程度;回归系数b 表示x 每改变一个单
位时,y 的平均改变量。④计算:xy r l =,xx xy l l b /=。⑤取值范围:
11≤≤-r ,∞<<∞-b 。⑥r 没有单位,b 有单位。 】
联系:①对于服从双变量正态分布的同一组数据,既可作直线相关分析又可作直线回归分析,计算出的r 与b 符号一致。②对于同一样本,相关系数与回归系数的假设检验等价。③对于服从双变量正态分布的同一组资料,其相关系数r
和回归系数b 可以相互换算:x
y
bS r
S 。④用回归可以解释相关,决定系数总
回SS SS R =
2
。
4.有以下方法:方差分析、总体回归系数的t 检验、计算总体回归系数的置信区间。若资料服从双变量正态分布,除上述方法外,因为相关系数与回归系数的假设检验等价,还可采用总体相关系数的t 检验、计算总体相关系数的置信区间等方法来推断总体回归关系是否成立。
二、案例辨析题
要进行直线回归分析,首先应绘制自变量与应变量的散点图,观察两变量是否有直线趋势。如图14-1所示,两变量散点呈曲线趋势,不宜进行直线回归分析。
!
因此直接用原始数据建立直线回归方程得到? 5.335 1.599y
x =+不正确。对自变量进行对数变换,令lg()x x '=,再观察y 与x '的散点图,如图14-2所示,可见对数转换后其直线趋势较为明显。
图14-2 火箭电泳高度与IgA 浓度对数值的关系
建立y 与x '的直线回归方程得到? 6.73712.259y
x '=+,对回归系数进行假设检验,得001.0
三、最佳选择题
(
2. C
四、综合分析题 1.解:
(1) 建立肺活量y 与胸围x 的回归方程
1) 作两变量的散点图,以胸围为横坐标,肺活量为纵坐标绘制散点图 (见SPSS 结果),散点呈直线趋势,故可进行直线回归分析。 2) 由样本数据计算如下统计量
81.18667x =, 2.78133y =
22()/289.73737xx l x x n =-=∑∑
?
22()/ 3.02857yy l y y n =-=∑∑
()/26.62227xy l xy x y n =-=∑∑∑
3) 计算回归系数b 及截距a
0.09188xy xx
l b l =
=, 4.67810a y bx
4) 得直线回归方程为:? 4.678100.09188y
x =-+ (2) 对回归系数进行假设检验
方法一:采用方差分析对回归系数进行假设检验 1) 建立检验假设,确定检验水准
0H :0β=,即胸围与肺活量之间无直线回归关系 1H :0β≠,即胸围与肺活量之间有直线回归关系
、
=0.05α
2) 计算检验统计量
2() 3.02857yy SS y y l 总=-==∑ 2?()0.58241SS y y
残=-=∑ 3.028570.58241 2.44616SS SS SS 回总残=-=-=
/ 2.44616/1
54.601/0.58241/13
MS SS F MS SS νν=
=
=
=回回回残
残残
3) 确定P 值,作出统计推断
11νν==回,2213n νν==-=残,查
F 界值表(附表4),
12(,)0.01(1,13)9.07F F ανν==,得0.01P <,按=0.05α水准拒绝0H ,回归方程有统计
学意义,可以认为女大学生的胸围与肺活量之间有直线回归关系。 方法二:采用t 检验对回归系数进行假设检验 1) 建立检验假设,确定检验水准 (
0H :0β=,即胸围与肺活量之间无直线回归关系
1H :0β≠,即胸围与肺活量之间有直线回归关系
=0.05α
2) 计算检验统计量
0.21166y x S ?=
=
=
0.012435
289.73737
b xx
S S l =
=
=
0.091887.3890.012435
b b b t S =
== 3) 确定P 值,作出统计推断
13ν=,查t 界值表(附表3),得0.001P <,按=0.05α水准拒绝0H ,回归方
程有统计学意义,可认为女大学生的胸围与肺活量之间有直线回归关系。 (3) 计算总体回归系数的95%置信区间 '
由以上计算结果可知0.09188b =,0.012435b S =,13ν=,查t 界值表得
0.05/2,13 2.160t =。回归系数β的95%置信区间为:
0.09188 2.1600.012435,0.09188 2.1600.012435)(0.06502,0.11875)-?+?=。
SPSS 操作 数据录入:
打开SPSS Data Editor 窗口,点击Variable View 标签,定义要输入的胸围x 、肺活量y ,再点击Data View 标签,录入数据(见图14-3,图14-4)。
图14-3 Variable View 窗口内定义要输入的变量
图14-4 Data View窗口内录入数据分析:
&
绘制散点图:
Graphs →Scatter/Dot …→ Simple Scatter
Define
y Axis框:y
x Axis框:x
OK
回归分析:
Analyze → Regression →Linear …
Dependent 框:y
Independent(s) 框:x
、
Statistics → Regression Coefficients
Estimates
Confidence intervals
Model fit
Continue
OK
输出结果
2.解:
(1) 以每日吸烟量为横坐标,DNA 加合物含量为纵坐标绘制散点图(见SPSS 结果),散点呈直线趋势,不存在离群点,故可进行直线回归分析。
(2) 建立DNA 加合物含量y 与每日吸烟量x 的回归方程 由样本数据计算如下统计量
17.083x =,11.5975y =
22()/672.9167xx l x x n =-=∑∑
#
22()/242.0240yy l y y n =-=∑∑
肺活量
()/318.9625xy l xy x y n =-=∑∑∑
计算回归系数b 及截距a
0.474xy xx
l b l =
=, 3.500a y bx =-=
得直线回归方程为:? 3.5000.474y
x =+ 采用方差分析对回归系数进行假设检验 1) 建立检验假设,确定检验水准
0H :0β=,即DNA 加合物含量与每日吸烟量之间无直线回归关系 1H :0β≠,即DNA 加合物含量与每日吸烟量之间有直线回归关系
=0.05α
:
2) 计算检验统计量
2()242.0240yy SS y y l 总=-==∑ 2?()90.8358SS y y
残=-=∑ 242.024090.8358151.1882SS SS SS 回总残=-=-=
/151.1882/1
16.644/90.8358/10
MS SS F MS SS νν=
=
=
=回回回残
残残
3) 确定P 值,作出统计推断
11νν==回,2210n νν==-=残,查F 界值表(附表4),得0.01P <,按=0.05α水准拒绝0H ,回归方程有统计学意义,可以认为肺癌患者肺组织中DNA 加合物含量与每日吸烟量之间有直线回归关系。
SPSS 操作
数据录入: 】
打开SPSS Data Editor 窗口,点击Variable View 标签,定义要输入的每日吸烟量x 、DNA 加合物含量y ,再点击Data View 标签,录入数据(见图14-5,图14-6)。
图14-5 Variable View窗口内定义要输入的变量
图14-6 Data View窗口内录入数据
分析:
绘制散点图:
Graphs →Scatter/Dot …→ Simple Scatter
Define
y Axis框:y
x Axis框:x
OK
回归分析:
Analyze → Regression →Linear …
Dependent 框:y
Independent(s) 框:x
Statistics → Regression Coefficients
Estimates
Confidence intervals
Model fit
Continue
输出结果
D N A 加合物含量