回归方程及回归系数的显著性检验教程文件

合集下载

多元线性回归模型的估计、回归系数和回归方程的检验、标准化回归方程、预测

实验二：多元线性回归模型的估计、回归系数和回归方程的检验、标准化回归方程、预测实验题目：研究货运总量y（万吨）与工业总产量x1(亿元)，农业总产值x2（亿元），居民非商品支出x3（亿元）的关系。

数据如表：1.计算y,x1,x2,x3的相关系数矩阵；2.求y关于x1,x2,x3的三元线性回归方程；3.对所求得的方程作拟合度检验4.对回归方程作显著性检验；5.对每一个回归系数作显著性检验；6.如果有的回归系数没有通过显著性检验，将其剔除，重新建立回归方程，再作回归方程的显著性检验和回归系数的显著性检验；7.求出新回归方程的每一个回归系数的置信水平为９５％的置信区间；8.求标准化回归方程；9.求当x01=75,x1=42, x2=3.1时的y的预测值，给定置信水平为95%，用SPSS 软件计算精确置信区间，手工计算近似预测区间？10 结合回归方程对问题作一些基本分析。

数据如下：y x1 x2 x31607035 1.02607540 2.42106540 2.02657442 3.02407238 1.22206845 1.52757842 4.01606636 2.02757044 3.22506542 3.0实验目的：掌握多元线性回归模型的估计、回归系数和回归方程的检验、标准化回归方程、预测SPSS主要操作：操作步骤类似于一元线性回归模型的方法SPSS输出结果及答案：1:y,x1,x2,x3的相关系数矩阵如下表：由上述输出结果知：y=-348.280+3.754x1+7.101x2+12.447x3 3模型汇总b模型R R 方调整 R 方标准估计的误差1 .898a.806 .708 23.44188a. 预测变量: (常量), 居民非商品支出X3（亿元）, 工业总产值X1（亿元）, 农业总产值X2（亿元）。

b. 因变量: 货运总量Y（万吨）由上述输出结果知：调整R square=0.708,拟合的较好4Anova b模型平方和df 均方 F Sig.1 回归13655.370 3 4551.790 8.283 .015a残差3297.130 6 549.522总计16952.500 9a. 预测变量: (常量), 居民非商品支出X3（亿元）, 工业总产值X1（亿元）, 农业总产值X2（亿元）。

回归方程及回归系数的显著性检验演示教学

回归方程及回归系数验检性著显的．3 回归方程及回归系数的显著性检验§１、回归方程的显著性检验回归平方和与剩余平方和(1)是否确实存在线性关系呢？这, 回归效果如何呢？因变量与自变量建立回归方程以后我们要进一步研究因变量, 取值的变化规律。

的每是需要进行统计检验才能加以肯定或否定, 为此常用该次观侧值每次观测值的变差大小, 次取值是有波动的, 这种波动常称为变差,次观测值的总变差可由而全部, 的差(称为离差)来表示与次观测值的平均值总的离差平方和,: 其中它反映了自变量称为回归平方和 , 是回归值与均值之差的平方和,。

)为自变量的个数的波动的变化所引起的, 其自由度(,), 是实测值与回归值之差的平方和或称残差平方和称为剩余平方和(的自由度为其自由度。

总的离差平方和。

它是由试验误差及其它因素引起的,,, 是确定的即, 如果观测值给定则总的离差平方和是确定的, 因此大则反之小,或者, 与, 大所以且回归平方和都可用来衡量回归效果, 越大则线性回归效果越显著小则如果越小回归效果越显著, ; 则线性回大, 说剩余平方和0, ＝如果则回归超平面过所有观测点归效果不好。

复相关系数(2)人们也常引用无量纲指标, 为检验总的回归效果, (3.1)或．, (3.2)称为复相关系数。

因为回归平方和实际上是反映回归方程中全部自变量的“方差贡献”, 因此因此的相关程度。

显然, 就是这种贡献在总回归平方和中所占的比例表示全部自变量与因变量因此它可以作为检验总的回归效果的一个指标。

但, 回归效果就越好, 。

复相关系数越接近１常有较大的并不很大时, 相对于,与回归方程中自变量的个数及观测组数有关, 当应注意一般认为应取, 的适当比例的５到10至少为倍为宜。

值与, 因此实际计算中应注意检验(3)就是要检验假设, 是否存在线性关系要检验与, (3.3)应用统计量否则认为线性关系显著。

检验假设无线性关系, 与成立时当假设, 则, (3.4)它服从自由度为即及的分布, , 这是两个方差之比, (3.5)应有则当给定检验水平成立, α下, 可检验回归的总体效果。

回归方程的显著性检验线性关系的检验

3. 图像
1 =1
=-1 <-1
0< < 1
-1< <0
非线性模型及其线性化方法
双曲线函数
1. 基本形式： 2. 线性化方法
令：y' = 1/y，x'= 1/x, 则有y' = + x'
3. 图像
<0
>0
非线性模型及其线性化方法
对数函数
1. 基本形式： 2. 线性化方法
一、多元线性回归模型
（概念要点）
1. 一个因变量与两个及两个以上自变量之间的回归。
2. 描述因变量 y 如何依赖于自变量 x1，x2，… xp 和误差项的方程称为多元线性回归模型。
3. 涉及 p 个自变量的多元线性回归模型可表示为
y 0 1x1i 2 x2i p x pi i
yˆ0 ，就是个别值的点估计。
2. 比如，如果我们只是想知道1990年人均国民收
入为1250.7元时的人均消费金额是多少，则属于个别值的点估计。根据估计的回归方程得
yˆ0 54.22286 0.526381250.7 712.57(元)
利用回归方程进行估计和预测
（区间估计）
1. 点估计不能给出估计的精度，点估计值与实际值之间是有误差的，因此需要进行区间估计。
2、 E(y0) 在1-置信水平下的置信区间为
yˆ0 t 2 (n 2)S y
1 x0 x2
n
n
xi
x
2
式中： Sy 为估计标准误差
i 1
利用回归方程进行估计和预测
（置信区间估计:算例）【例】根据前例，求出人均国民收入1250.7元时，人均消费金额95%的置信区间。解：根据前面的计算结果

第三节线性回归的显著性检验及回归预测

i
xy
i
n
]
2 b x i x i yi a x i 0 SS , SS E , SS R依赖： a y bx
5
注意：三个平方和SS , SS E , SS R的自由度分别记为 f , f E , f R , 则它们之间也有等式成立： f fE fR 且：f n-1, f E n 2, 则f R f f E 1.
2
x
i 1
n
i
x
2
式中：se为回归估计标准差
置信区间估计(例题分析)
【例】求出工业总产值的点估计为100亿元时，工业总产值95%置信水平下的置信区间. yc 100 解：根据前面的计算结果,已知n=16， • se=2.457，t(16-2)=2.1448 • 置信区间为 1 (73 57.25)2
一元线性回归的方差分析表
离差来源平方和自由度 F值 SS R 回归 SS y y 2 1 F R ci SS E 2 剩余 n-2
SS E yi yci
( n 2)
总计
SS yi y
2
n-1
8
线性关系的检验(例题分析)
1. 提出假设 H0 : 0; 2. 计算检验统计量F
i
(x
x ) nS xi
2 2
( xi )
2
③根据已知条件实际计算统计量t的值； ④ 比较②与③中的计算结果,得到结论.
3
回归系数的假设
b Se 1
对例题的回归系数进行显著性检验(＝0.05)
H0 : 0;

i
H1 : 0

回归分析

回归系数，因此失去两个自由度。回归系数，因此失去两个自由度。
♦
dfR＝dfT－dfE＝1
⑷．计算方差
♦ ♦
回归方差残差方差
SS R MS R = df R
SS E MS E = df E
⑷．计算F ⑷．计算F值
MS R F= MS E
⑹．列回归方程的方差分析表
表21－1 回归方程方差分析表
变异来源回归残差总变异平方和自由度方差 F 值概率
♦
β=０ H0：β=０ H1：β≠０
♦
统计量计算
ΣX 2 − (ΣX ) / n bYX t= = bYX ⋅ SEb MS E
2
50520 − 710 2 / 10 = 1.22 × = 3.542 13.047
二．一元线性回归方程的评价── 二．一元线性回归方程的评价── 测定系数
♦
一元线性回归方程中，一元线性回归方程中，总平方和等于回归平
2 2
SS R = SST
（21．5）
r2
X的变异
Y的变异
图21-1 21-
测定系数示意图
图21-2 21-
测定系数示意图
♦
例3：10名学生初一对初二年级数学成 10名学生初一对初二年级数学成
绩回归方程方差分析计算中得到：绩回归方程方差分析计算中得到：
♦ SST=268.1
♦
2
SSR=163.724
数学成绩估计初二数学成绩的回归方程；数学成绩估计初二数学成绩的回归方程；将另一学生的初一数学成绩代入方程，学生的初一数学成绩代入方程，估计其初二成绩
Y = 1.22 X − 14.32 = 1.22 × 76 − 14.32 = 78.4

多元回归方程的显著性检验

回归方程的显著性检验：（1）在模型上做假设：建立回归方程的目的是寻找Y 的均值随a 的变化规律，即找出回归方程a Y 0=＋x a 11＋x a 22＋x a 33＋x a 44＋x a 55。

如果错误!未找到引用源。

=0,那么不管错误!未找到引用源。

如何变化，Y 不随a 的变化做任何改变，那么这时所求的回归方程是没有意义的。

，此时的回归方程是不显著的。

如果错误!未找到引用源。

，x x 51...≠0那么a 变化时，Y 随x 的作回归变化，那么这时求得的回归方程是有意义的，此时是显著地。

综上，对回归方程是否有意义作判断就要作如下的显著性检验：H：x x 51...全为0 H1：x x 51...不全为0拒绝错误!未找到引用源。

表示回归方程是显著的。

对最终求得的回归方程：x x x x Y 5421092.18833.19111.0363.026.574++-+-= 进行F 检验。

（2）找出统计量：数据总的波动用总偏差平方和用2131))((∑=-=i iyave ST y表示，引起各Yave 不同的原因主要有两个因素：其一是错误!未找到引用源。

可能不真，Y 随a 的变化而变化，从而在每一个a 的观测值处的回归值不同，其波动用回归平方和2131i yave ypre SR ∑=-=））（（表示，其二是其他一切因素，包括随机误差、a 对y 的非线性影响等，这样在得到回归值以后，y 的观测值与回归值之间还有差距，这可用残差平方和2131i iypre SE y ∑=-=））（（表示。

（3）F 值的计算由定理：设y 1321....y y ，错误!未找到引用源。

相互独立，且),...(~255110σx a x a a yi i iN +++，I = 1， (13)则在上述记号下，有 ①）（1n ~SE 22-χσ②若H 0成立，则有）（p ~SE22χσ，（p 为回归参数的个数） ③SR 与SE ，yave 独立。

回归分析(2))回归方程的检验

x1 x 2
2 7 5 12 l 3 3 6 7 0 3 0 8 6 0 3 7 16 6 0 9 4 0 9 2 18 9 14 3 20 12 17 5 8 23 16 18 4 14 21 14 12 0 16 15 0 6 17 0 16
编号
26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49

1 1 ij ij
§2.5 线性回归模型预测精度估计

通过对模型及变量的显著性检验后，我们可用所建立的回归模型进行预测或控制。但用模型进行预测，所得结果的精度如何?即真值（实际值）与模型预测值的误差有多大?这是我们关心的问题，应该作出估计，为此给出剩余标准差
r剩 S剩 /(n r 1)
2 i 1 i 1 i 1
n
n
§ 2.4 回归方程的显著性检验——方差分析
ˆ ˆ 其中， ( yi yi )( yi y ) 0 ，事实上，由式（2.8)
i 1 n
可知
y b0 b1 x1 b2 x2 bm xm
ˆ yi y b0 b1 xi 1 b2 x i 2 bm xim (b0 b1 x1 bm x m ) b1 ( xi 1 x1 ) b2 ( xi 2 x2 ) bm ( xim xm )
§ 2.4 回归方程的显著性检验及精度估计
此外，在检验得知线性回归方程是显著之后，我们还可以进一步判断在线性回归方程中， y x1 , x2 ,是影响的重要变量， , xm 哪些变量哪些变量是不重要变量，由此分析可对回归方程作更进一步简化，从而得到最优回归方 x1 , x2要 , xm , 程。这就是所谓的对每个变量进行显著性检验问题。

回归方程及回归系数的显著性检验

.3 回归方程及回归系数的显著性检验§１、回归方程的显著性检验回归平方和与剩余平方和(1)与自变量, 是否确实存在线性关系呢？这回归效果如何呢？因变量建立回归方程以后我们要进一步研究因变量, 为此, 取值的变化规律。

的每次是需要进行统计检验才能加以肯定或否定常用该次观侧值, 每次观测值是有波动的, 这种波动常称为变差, 的变差大小取值而全部次观测值的总变差可由总的来表示, 的差(称为离差与次观测值的平均值)离差平方和,: 其中与均值之差的平方和, , 是回归值它反映了自变量称为回归平方和。

(其自由度为自变量的个数)的变化所引起的的波动,与回归值之差的平方和是实测值, 称为剩余平方和(或称残差平方和), 它的自由度为其自由度。

是由试验误差及其它因素引起的, 。

总的离差平方和,反之因此, 即小大则是确定的, , 如果观测值给定 , 是确定的则总的离差平方和且回归平方和越大则线性回归效果越显著, 小则大, 所以与, 或者说剩都可用来衡量回归效果如果; ＝如果0, 越小回归效果越显著则线性回归效果大, 余平方和, 则回归超平面过所有观测点不好。

复相关系数(2)人们也常引用无量纲指标为检验总的回归效果,, (3.1)或1 / 6., (3.2)称为复相关系数。

因为回归平方和实际上是反映回归方程中全部自变量的“方差贡献”, 因此就因此。

是这种贡献在总回归平方和中所占的比例显然, 表示全部自变量与因变量的相关程度。

, , 因此它可以作为检验总的回归效果的一个指标。

但应注意与复相关系数越接近１, 回归效果就越好因此实际值相对于并不很大时, 及观测组数回归方程中自变量的个数有关, , 当常有较大的一般认为应取的５到计算中应注意的适当比例倍为宜。

, 与10至少为检验(3)要检验与是否存在线性关系, 就是要检验假设, (3.3)应用统计量当假设无线性关系, 成立时, 否则认为线性关系显著。

检验假设则与, (3.4)它服从自由度为及这是两个方差之比的分布, 即,, (3.5)应有统计量下, 用此统计量, 成立则当给定检验水平可检验回归的总体效果。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

回归方程及回归系数的显著性检验
§3 回归方程及回归系数的显著性检验
１、回归方程的显著性检验
(1) 回归平方和与剩余平方和
建立回归方程以后, 回归效果如何呢？因变量与自变量是否确实存在线性关系呢？这是需要进行统计检验才能加以肯定或否定, 为此, 我们要进一步研究因变量取值的变化规律。

的每次取值是有波动的, 这种波动常称为变差, 每次观测值的变差大小, 常用该次观侧值
与次观测值的平均值的差(称为离差)来表示, 而全部次观测值的总变差可由总的离差平方和
,
其中:
称为回归平方和, 是回归值与均值之差的平方和, 它反映了自变量的变化所引起的的波动, 其自由度(为自变量的个数)。

称为剩余平方和(或称残差平方和), 是实测值与回归值之差的平方和, 它是由试验误差及其它因素引起的, 其自由度。

总的离差平方和的自由度为。

如果观测值给定, 则总的离差平方和是确定的, 即是确定的, 因此大则小, 反之, 小则大, 所以与都可用来衡量回归效果, 且回归平方和越大则线性回归效果越显著, 或者说剩余平方和越小回归效果越显著, 如果＝0, 则回归超平面过所有观测点; 如果大, 则线性回归效果不好。

(2) 复相关系数
为检验总的回归效果, 人们也常引用无量纲指标
, (3.1)
或
, (3.2)
称为复相关系数。

因为回归平方和实际上是反映回归方程中全部自变量的“方差贡献”, 因此
就是这种贡献在总回归平方和中所占的比例, 因此表示全部自变量与因变量的相关程度。

显然。

复相关系数越接近１, 回归效果就越好, 因此它可以作为检验总的回归效果的一个指标。

但应注意, 与回归方程中自变量的个数及观测组数有关, 当相对于并不很大时, 常有较大的值, 因此实际计算中应注意与的适当比例, 一般认为应取至少为的５到10倍为宜。

(3) 检验
要检验与是否存在线性关系, 就是要检验假设
, (3.3)
当假设成立时, 则与无线性关系, 否则认为线性关系显著。

检验假设应用统计量
, (3.4)
这是两个方差之比, 它服从自由度为及的分布, 即
, (3.5)
用此统计量可检验回归的总体效果。

如果假设成立, 则当给定检验水平α下, 统计量应有≤, (3.6)
对于给定的置信度α, 由分布表可查得的值, 如果根据统计量算得的值为
, 则拒绝假设, 即不能认为全部为O, 即个自变量的总体回归效果是显著的, 否则认为回归效果不显著。

利用检验对回归方程进行显著性检验的方法称为方差分析。

上面对回归效果的讨论可归结于一个方差分析表中, 如表3.1。

表3.1 方差分析表
来
平方和自由度方差方差比
源
回
归
剩
余
总
计
根据与的定义, 可以导出与的以下关系:
,。

利用这两个关系式可以解决值多大时回归效果才算是显著的问题。

因为对给定的检验水平α, 由分布表可查出的临界值, 然后由即可求出的临界值:
, (3.7)
当时, 则认为回归效果显著。

例3.1利用方差分析对例2.1的回归方程进行显著性检验。

方差分析结果见表3.2。

表3.2
来源平方和自由度方差方差比
回归
剩余
总计
取检验水平α＝0.05, 查分布表得, 而, 所以例2.1
的回归方程回归效果是显著的。

２、回归系数的显著性检验
前面讨论了回归方程中全部自变量的总体回归效果, 但总体回归效果显著并不说明每个自变量对因变量都是重要的, 即可能有某个自变量对并不起作用或者能被其它的的作用
所代替, 因此对这种自变量我们希望从回归方程中剔除, 这样可以建立更简单的回归方程。

显然某个自变
量如果对作用不显著, 则它的系数就应取值为0, 因此检验每个自变量是否显著, 就要检验假设:
, , (3.8)
(1) 检验:
在假设下, 可应用检验:
, , (3.9)
其中为矩阵的对角线上第个元素。

对给定的检验水平α, 从分布表中可查出与α对应的临界值, 如果有, 则拒绝假设, 即认为与0有显著差异, 这说明对有重要作用不应剔除; 如果有则接受假设, 即认为成立, 这说明对不起作用, 应予剔除。

(2) 检验:
检验假设, 亦可用服从自由度分别为1与的分布的统计量
, (3.10)
其中为矩阵的主对角线上第个元素。

对于给定的检验水平α, 从分布表中可查得临界, 如果有, 则拒绝假设, 认为对有重要作用。

如果, 则接受假设, 即认为自变量对不起重要作用, 可以剔除。

一般一次
检验只剔除一个自变量, 且这个自变量是所有不显著自变量中值最小者, 然后再建立回归方程, 并继续进行检验, 直到建立的回归方程及各个自变量均显著为止。

最后指出, 上述对各自变量进行显著性检验采用的两种统计量与实际上是等价的, 因为由(3.9)式及(3.10)式知, 有
(3.11)
例3.2对例2.1的回归方程各系数进行显著性检验。

经计算:
,
于是
,
其中＝0.002223, ＝0.004577。

由(3.7)式知
,
,
查分布表得, , 因为,
, 所以两个自变量及都是显著的。

又由, 说明体长比胸围对体重的影响更大。

如果应用检验, 查分布表有, 又由
,
,
因为, , 因此及都是显著的, 均为重要变量, 应保留在回归方程中。

(3) 偏回归平方和
检验某一自变量是否显著, 还可应用偏回归平方和进行检验。

个自变量的回归平方和为
,
如果自个自变量中去掉, 则剩下的个自变量的回归平方和设为, 并设
,
则就表示变量在回归平方和中的贡献, 称为的偏回归平方和或贡献。

可以证明
, (3.12)
偏回归平方和越大, 说明在回归方程中越重要, 对的作用和影响越大, 或者说对回归方程的贡献越大。

因此偏回归平方和也是用来衡量每个自变量在回归方程中作用大小(贡献大小)的一个指标。

例如在例2.1中, 和的偏回归平方和分别为
,
,
, 说明在回归方程中的作用比大。

又如在例2.2中及的偏回归平方和分别为:
,
,
,
,
的值最小, 即在回归方程中所起的作用最小, 最大, 说明在回归方程中所起的作用最大。