第四讲 回归分析3(逐步回归分析)

合集下载

第四讲回归分析回归诊断.

第四讲回归分析回归诊断.

看数据,一眼就能发现数据(5)其X3的 值突出的高。 然后再分析其背景
强影响点
数据集中的强影响点是指那些对统计量的 取值有非常大的影响力的点。在考虑强影 响点时,有几个基本问题需要考虑: 首先必须明确“是对哪个统计量的影响?” 例如,对线性回归模型所考虑的是对回归 系数的估计量的影响;不是对误差方差的 估计影响;或是对拟合优度统计量的影响 等等。分析目标不同,所考虑的影响亦有 所不同。
在另外一些情况下,异常点的出现是由于 人为差错或者仪器的故障所引起的。 在我们需要根据样本对模型进行参数估计 或者根据模型对将来进行预测与控制的时 候,异常点的出现会对我们的工作产生很 强的影响,这样的结果是令人怀疑的。 因此,异常点的研究受到了广大研究者的 重视,自Bernoulli首次提出了异常点的概念, 接下来对异常点的概念、类型以及处理问 题的讨论一直没有停止过。
其次,必须确定“度量影响的尺度是什么?”为 了定量地刻划影响的大小,迄今为止已提出多种 尺度,基于置信域的尺度,基于似然函数的尺度 等等。 在每一种类型中又可能有不同的统计量。每一种场合下较为有效。这一方面反映了度量影响问题 的复杂性,另一方面也说明了影响分析的研究在 统计诊断中是一个甚为活跃的议程。
对于由第三种成因引起的异常点,发现 之后可以进行删除,以免影响参数估计 等以后的工作效果。 另外一种方法就是对于异常点采取容忍 的态度,把整个数据集作为研究的基础, 对于一定比例的坏数据或者远离数据中 心的数据采取一定的容忍或适应政策
回归系数一般采用“最小二乘估计”(least squares estimator,LS estimator)求解,但是在应用中容易忽 视的问题是LS估计只有在数据满足相应条件的情况 下才会具有统计描述和推断的优良性质,如要求误 差服从正态分布、总体方差相同且相互独立等。 当实际数据没有近似满足这些假定时,就会出现一 些异常点(outliers)、杠杆点(leverage point)及影 响点(influential observations),使分析结果变得不可靠, 不能发现数据中的真实结构,从专业上难以解释结 果,甚至得到完全错误的结论。尤其是随着统计软 件的日渐普及,我们倾向于简单地将数据交给软件 来分析,而不注意具体方法的应用条件,尽管采用 了SAS、SPSS这些国际标准软件,但是输出结果有 时却与专业解释相悖。

逐步回归分析

逐步回归分析

逐步回归分析逐步回归分析1、逐步回归分析的主要思路在实际问题中, ⼈们总是希望从对因变量有影响的诸多变量中选择⼀些变量作为⾃变量, 应⽤多元回归分析的⽅法建⽴“最优”回归⽅程以便对因变量进⾏预报或控制。

所谓“最优”回归⽅程, 主要是指希望在回归⽅程中包含所有对因变量影响显著的⾃变量⽽不包含对影响不显著的⾃变量的回归⽅程。

逐步回归分析正是根据这种原则提出来的⼀种回归分析⽅法。

它的主要思路是在考虑的全部⾃变量中按其对的作⽤⼤⼩, 显著程度⼤⼩或者说贡献⼤⼩, 由⼤到⼩地逐个引⼊回归⽅程, ⽽对那些对作⽤不显著的变量可能始终不被引⼈回归⽅程。

另外, ⼰被引⼈回归⽅程的变量在引⼊新变量后也可能失去重要性, ⽽需要从回归⽅程中剔除出去。

引⼈⼀个变量或者从回归⽅程中剔除⼀个变量都称为逐步回归的⼀步, 每⼀步都要进⾏检验, 以保证在引⼈新变量前回归⽅程中只含有对影响显著的变量, ⽽不显著的变量已被剔除。

逐步回归分析的实施过程是每⼀步都要对已引⼊回归⽅程的变量计算其偏回归平⽅和(即贡献), 然后选⼀个偏回归平⽅和最⼩的变量, 在预先给定的⽔平下进⾏显著性检验, 如果显著则该变量不必从回归⽅程中剔除, 这时⽅程中其它的⼏个变量也都不需要剔除(因为其它的⼏个变量的偏回归平⽅和都⼤于最⼩的⼀个更不需要剔除)。

相反, 如果不显著, 则该变量要剔除, 然后按偏回归平⽅和由⼩到⼤地依次对⽅程中其它变量进⾏检验。

将对影响不显著的变量全部剔除, 保留的都是显著的。

接着再对未引⼈回归⽅程中的变量分别计算其偏回归平⽅和, 并选其中偏回归平⽅和最⼤的⼀个变量, 同样在给定⽔平下作显著性检验, 如果显著则将该变量引⼊回归⽅程, 这⼀过程⼀直继续下去, 直到在回归⽅程中的变量都不能剔除⽽⼜⽆新变量可以引⼊时为⽌, 这时逐步回归过程结束。

2、逐步回归分析的主要计算步骤(1) 确定检验值在进⾏逐步回归计算前要确定检验每个变量是否显若的检验⽔平, 以作为引⼈或剔除变量的标准。

逐步回归分析

逐步回归分析

逐步回归分析的计算举例
序号 1 2 3 4 5 6 X1 40 40 44 42 38 46 X2 89.47 75.07 85.84 68.15 89.02 77.45 X3 11.37 10.07 8.65 8.17 9.22 11.63 X4 62 62 45 40 55 58 X5 178 185 156 166 178 176 X6 182 185 168 172 180 176 Y( X6) 44.609 45.313 54.297 59.571 49.871 44.811
0.02605
SSR5
(1)
(r5 y (0) )2 r
(0) 55
0.15840
0.05612
SSR
(1) 3

0.73479
SSR6
(1)

( r6 y (0) )2 r66(0)
逐步回归分析的计算举例
仅考虑选入变量 因为: SSR (1) = max [ SSRi (1) ] = = 0.73497,所以:k = 3 k 对X3做偏回归检验,得:

30 31 ∑Xi

48 52 1478 47.68 5.2114

61.24 82.78 2400.78 77.44 8.3286

11.50 10.50 327.67 10.57 1.3656

52 53 1657 53.45 7.6194

170 170 5259 169.65 10.2520
(2)
SSR6
(3)

( r6 y (2) )2 r66(2)
0.0203
因为: SSRk (3) = max [ SSRi (3) ] = 0.0507,所以:k = 5 对X5做偏回归检验,得:

逐步回归分析

逐步回归分析

逐步回归分析1、逐步回归分析的主要思路在实际问题中, 人们总是希望从对因变量有影响的诸多变量中选择一些变量作为自变量, 应用多元回归分析的方法建立“最优”回归方程以便对因变量进行预报或控制。

所谓“最优”回归方程, 主要是指希望在回归方程中包含所有对因变量影响显著的自变量而不包含对影响不显著的自变量的回归方程。

逐步回归分析正是根据这种原则提出来的一种回归分析方法。

它的主要思路是在考虑的全部自变量中按其对的作用大小, 显著程度大小或者说贡献大小, 由大到小地逐个引入回归方程, 而对那些对作用不显著的变量可能始终不被引人回归方程。

另外, 己被引人回归方程的变量在引入新变量后也可能失去重要性, 而需要从回归方程中剔除出去。

引人一个变量或者从回归方程中剔除一个变量都称为逐步回归的一步, 每一步都要进行检验, 以保证在引人新变量前回归方程中只含有对影响显著的变量, 而不显著的变量已被剔除。

逐步回归分析的实施过程是每一步都要对已引入回归方程的变量计算其偏回归平方和(即贡献), 然后选一个偏回归平方和最小的变量, 在预先给定的水平下进行显著性检验, 如果显著则该变量不必从回归方程中剔除, 这时方程中其它的几个变量也都不需要剔除(因为其它的几个变量的偏回归平方和都大于最小的一个更不需要剔除)。

相反, 如果不显著, 则该变量要剔除, 然后按偏回归平方和由小到大地依次对方程中其它变量进行检验。

将对影响不显著的变量全部剔除, 保留的都是显著的。

接着再对未引人回归方程中的变量分别计算其偏回归平方和, 并选其中偏回归平方和最大的一个变量, 同样在给定水平下作显著性检验, 如果显著则将该变量引入回归方程, 这一过程一直继续下去, 直到在回归方程中的变量都不能剔除而又无新变量可以引入时为止, 这时逐步回归过程结束。

2、逐步回归分析的主要计算步骤(1) 确定检验值在进行逐步回归计算前要确定检验每个变量是否显若的检验水平, 以作为引人或剔除变量的标准。

逐步回归分析

逐步回归分析

值都近似相等。

故为方便起见,可取一个定数F*作为F检验的标准。

2. 计算每个变量的均数 j、离均差平方和(l ii、l jj),每两个变量的离均差积和l ij,以及相关系数r ij,并以求得的rij为元素列出原始相关矩阵R(0)(阵中r ij(0)=r ij):以后每引入或剔除一个变量都计为一步运算。

设R(0)经L步所得的R(L)为对于每一步,R(L)均同样按式(2)变换成R(L+1)。

设引入或剔除的变量为Xg(g为该变量的下标),按式(2)作变换Lg,则R(L)成R(L+1)时,两矩阵中的各元素rij,有如下关系式:3. 选自变量。

(1) 引入未选量。

按式(3)计算各未选量的偏回归平方和V j(L+1),找出其中最大者,记作Va(L+1),就它所对应的自变量Xa按式(4)作F检验:式中m′为已引入变量的个数。

当F1>F*时引入变量X a,并对R(L)按式(2)作变换La,得R(L+1);当F1≤F*时挑选变量工作就此结束。

(2)剔除已选量。

引入新变量后,对原先引入的已选量分别计算其偏回归平方和Vj(L):找出V j(L)中最小者,记作Vb(L)。

就Vb(L)所对应的自变量X b按式(6)作F检验。

当F2≤F*时,剔除Xb,并对R(L)按式(2)作变换Lb得R(L+1);下一步对其余已选量再按式(5)、(6)求Vj并作F检验,直到已选量中没有可剔除时为止;当F2>F*时,已选量都不能被剔除,于是再考虑从未选量中能否引入新变量。

如此反复进行到第L步,若已选量都不能被剔除,未选量都不能引入时,逐步运算结束。

4. 求回归方程。

由相关矩阵R(L)求得的回归方程称为标准回归方程,式中b′j是标准偏回归系数,按式(7)求得。

b'j=rj.m+1(L)。

(7)实用中多元线性回归方程常用变量Xj的原单位,因此须再按式(8)求化成原单位后X j的偏回归系数b j,=l YY,即Y的离均差平方和,l jj为X j的离均差平方和。

回归分析(3)多元逐步回归

回归分析(3)多元逐步回归


r(l) 2m
r(l) 1y
r(l) 2y

R(l)
rm( l1)
r(l) m2

r(l) mm
r(l) my

ry(1l )
r(l) y2

r(l) ym
r(l) yy

1.首先对已引入方程变量 xi (i k 1,2,, l) 计 算方差贡献 Vi(l1) ,即 l 1 步的Vi
计算有更好的效果,可把正规方程组式(2.10)
,改为
r11b1 r12b2 r1mbm r1 y
r21b1 r22b2 r2mbm r2 y



rm1b1 rm2b2 rmm bm rmy
(2.18)
有变量被剔除,转入是否可以引入新变量的讨论。
§ 2.6 逐步回归的计算步骤
前面已经讲过,“引入”或“剔除”变量的依
据是
xi
y
根据自变量 对因变量 的方差贡献的大小决定
。当开始进行逐步回归时,第一步、第二步只考
虑“引入”。至于以后各步,则应首先考虑能否 剔
除,如果已断定不能剔除时,再考虑“引入”。 当
系:
bi bi Syy / Sii (i 1,2,, m)
方程组式(2.18)中左端的系数项定为矩阵 R(0) , 即零步矩阵。在计算技巧上为了方便,把R(0) 扩充

r11 r12 r1m r1 y

r21
r22 r2m
r2
y

R(0)
(2) 求 n
l j
( xij x j )2

逐步回归分析

逐步回归分析

②取模型外自变量的最大贡献值,即
V (2) k2
max
一切j k1
V
j
2
计算
F
S
2
E
Vk22
n 21
~F(1,n-2-1),
其中
S
2
E
ST
Vk22 ,
若 建立F 的 F回1归1,方n 程2即1最,优则回筛归选方结程束;,第一步中所
若 F F1 1, n 2 1 ,则选 xk2进入模型,将
A)
lnS
E
A
l
ln n
n
达到最小
(5)修正 R 2 准则
R2 1 n i (1 R2 ) 达到最大
nl
4.6.2 选择最优回归子集的方法 (1)选择最优子集的简便方法:
逐步筛选法(STEPWISE) 向前引入法或 前进法(FORWARD) 向后剔除法或后退法(BACKWARD)
(2)计算量最大的全子集法:
为: ,记
F l1 l 1
,
Fl
l 1 2
,
,
Fml 1
F l1 kl 1
max
F l1 l 1
,
F l1 l2
,,
F l1 m
若 得到Fk的ll11回 归F方(1,程n ,(即l 为1)最 1优),的停回止归筛方选程,;上一步
若 进行Fk下ll11 一 F步 (筛1, n选。(l 1) 1),将 xkl1 选进模型,
优的回归方程。
k2

从模型中剔除,不妨设x 就是x ,进入步骤 一元回归方程;
①按
计算各自变量的贡献
是xm,进入步骤(2)。
k2
m-1
(3); 基本思想:逐个引入自变量,每次引入对y影响

逐步回归分析

逐步回归分析

小,预测值 的误差也愈小,模拟的效果愈好。但是方程中的变量过多,预报工作量就会越
m 大,其中有些相关性不显著的预报因子会影响预测的效果。因此在多元回归模型中,选择适
o 宜的变量数目尤为重要。
c 逐步回归在病虫预报中的应用实例:
. 以陕西省长武地区 1984~1995 年的烟蚜传毒病情资料、相关虫情和气象资料为例(数
j 据见 DATA6.xls),建立蚜传病毒病情指数的逐步回归模型,说明逐步回归分析的具体步骤。
0t 影响蚜传病毒病情指数的虫情因子和气象因子一共有 21 个,通过逐步回归,从中选出对病
0 情指数影响显著的因子,从而建立相应的模型。对 1984~1995 年的病情指数进行回检,然
0 后对 1996~1998 年的病情进行预报,再检验预报的效果。
圣才学习网
表 6-10 是逐步回归每一步进入或剔除回归模型中的变量情况。 网 表 6-11 是逐步回归每一步的回归模型的统计量:R 是相关系数;R Square 相关系数的
图 3-7“Save”对话框
①“Predicted Values”预测值栏选项:
Unstandardized 非标准化预测值。就会在当前数据文件中新添加一个以字符“PRE_”
开头命名的变量,存放根据回
归模型拟合的预测值。
Standardized 标准化预测值。
Adjusted 调整后预测值。
S.E.of mean predictions 预测值的标准误。
网 习 学 计 统 华 中 图 3-4
“Stepping Method Criteria”框里的设置用于逐步回归分析的选择标准。 其中“Use probability of F”选项,提供设置显著性 F 检验的概率。如果一个变量的 F 检 验概率小于或等于进入“Entry”栏里设置的值,那么这个变量将被选入回归方程中;当回归 方程中变量的 F 值检验概率大于剔除“Removal”栏里设置的值,则该变量将从回归方程中被 剔除。由此可见,设置 F 检验概率时,应使进入值小于剔除值。 “Ues F value”选项,提供设置显著性 F 检验的分布值。如果一个变量的 F 值大于所设置 的进入值(Entry),那么这个变量将被选入回归方程中;当回归方程中变量的 F 值小于设置 的剔除值(Removal),则该变量将从回归方程中被剔除。同时,设置 F 分布值时,应该使 进入值大于剔除值。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
43(3)
② “逐步引入“法的缺点: 不能反映后来变化的状况,设想x1、x2、x3引入后,又引 入了x6,也许x3、x6引入后,x1的作用就不重要了,应该 予以剔除,而“逐步引入”法不能达到这个要求
4.逐步回归分析方法
– 按照自变量对因变量所起作用的显著程度,从大到小 逐个地引入回归方程 – 当每一变量引入以后,若先前已经引入的变量由于后 来变量的引入而使其作用变得不显著时,就及时从回 归方程中剔除出去,直到作用显著的变量都引入到回 归方程,而作用不显者的变量都剔出回归方程,得到 一个最佳的变量组合为止
43(1)
选择最优回归方程的方法
1.从所有可能的变量组合中,选择一个最优的回归 方程。这种方法一定能选出一个最优组合,但工 作量特别大 2.逐步剔除法
– 基本步骤:
• 从包含全部p个自变量组合的回归方程中逐个检验回归系数, 剔除对因变量作用不显著的自变量; • 对剔除后剩下的q个自变量建立对因变量的多元回归方程,再 逐个检验回归系数,剔除不显著的变量; • 重复上述步骤,直到保留在回归方程中自变量的作用都显著为 止
– 缺点:一开始把全部自变量都要引入回归方程,计算 量很大,实际上有些不重要的就不必引入
43(2)
3.逐步引入法
①基本步骤: 先逐个比较 xl,…,xp 对 y 的回归方程那些是显著的,从显 著的方程中挑选 F 值最大的,相应的自变量 x 就被“引 入”方程。无妨设 x 就是x1 再逐个比较(x1,x2)、(x1,x3)、…、(x1,xp)对y的回归方程,看 有没有F值显著的,此时的F就是考虑添加xi之后, xi的回 归系数是否显著地不为0,将显著的F中最大的F所相应的 变量“引入”方程。无妨设第二次“引入”的自变量是x2 再考察以x1、x2为基础,逐个添加x3、x4、…、xp之后的回 归方程,是否较x1、x2的方程有显著的改进,有就再“引 入”新的自变量……,这样下去,终于到某一步就没有可 以再“引入”的自变量了。这时就获得了最后的回归方程
• 由于回归系数和自变量所取的单位(或数量级)有 关,而各个自变量取不同的量纲的情况是常见的, 因而不能将回归系数直接进行比较
43(6)
建立标准正规方程组
• 为了消除这个影响,对自变量和因变量都 要加以标准化 • 标准化的方法
xj Xj Xj L jj j 1,2, , p
• 经过标准化的变量,其均值为 0,标准离差 Lxjxj为 1
Lyy U ( x1,
原来的是
, xl , xi ) Q( x1,
, xl , xi )
Lyy U ( x1,
, xl ) Q( x1,
, xl )
注意到上两式左端 Lyy 是一样的,当xi 引入后,回 归平方和从 U(x1,…,xl) 增加到U(x1,…,xl ,xi) ,而残差 平方和从 Q(x1,…,xl) 降到 Q(x1,…,xl ,xi)
43(8)
标准正规方程组
ˆ * 称为标准回归系 • 标准化正规方程组的解 j ˆ * 为0 。由于因变量也进行 数,其常数项 0 了标准化,其总离差平方和 Lyy=1
பைடு நூலகம்
• 求解标准化正规方程组还需要解决以下两 个问题
①引入变量和剔除变量的标准; ②引入变量与剔除变量的方法。
43(9)
二、变量的引入、剔除与消去法的关系
• 假定已有 l 个自变量引入到回归方程,即
* * ˆ ˆ y 1 x1 2 x2 * ˆ x l l
相应的平方和分解公式是
Lyy U Q
为了表明 U 和 Q 与引入的自变量是有关的,分 别用符号U(x1,…,xl) 和 Q(x1,…,xl) 表示
43(10)
当增加一个自变量 xi ( i = l+1,…, p ) 后,有了新 的回归方程,相应的平方和分解公式是
最优回归方程的问题
• 在有p个自变量的情况下,根据自变量的不 同组合可能建立的回归方程众多。这些回 归方程的效果有好有坏,而人们希望的是 回归效果最好的,即“最优”的回归方程 • 最优回归方程的要求:
– 回归效果最佳 – 自变量的个数最少
• 一方面对因变量起显著作用的自变量都选进回归方 程,另一方面对因变量作用不显著的自变量都剔除 回归方程,选择一个最佳的变量组合
43(7)
标准正规方程组
• 由标准化数据建立的正规方程组的系数矩 阵即为变量间的相关系数矩阵,称为标准 化正规方程组 • 标准化正规方程组为:
ˆ* r ˆ* r ˆ* r r11 1 12 2 1p p 1y * * * ˆ ˆ ˆ r r r 21 1 22 2 2 p p r2 y ˆ* ˆ* r ˆ* r r r pp p py p1 1 p 2 2
43(4)
逐步回归分析的几个问题
一、建立标准正规方程组 二、变量的引入、剔除与消去法的关 系
43(5)
一、建立标准正规方程组
• 为了分辨 p个自变量对因变量 Y 所起影响(或作用) 的大小,一个自然的想法是比较各自变量回归系 ˆ (j=1,2,…,p)的绝对值的大小。 数 j
ˆ 是在其余p-1 – 根据回归系数的含义,Xj 的回归系数 j 个自变量保持不变的条件下,Xj 改变一个单位所引起 Y 平均变化的大小。因而回归系数绝对值的大小反映 了它所代表的因素的重要程度
43(11)
因此,有
U ( x1 ,
, xl , xi ) U ( x1 , Q( x1,
, xl ) , xl , xi )
, xl ) Q( x1,

ui U ( x1 ,
, xl , xi ) U ( x1,
, xl )
ui就是回归方程中引入 xi 后对回归平方和的贡献, 即偏回归平方和,且有
2 ˆ ui i cii
43(12)
利用统计量
ui 1 ui F 2 ~ F (1, n l 2) ˆ Q (n (l 1) 1)
经F 检验,当 xi 作用显著时,可将其引入。 同理,如果 xi 原来已经在回归方程中,若检验后其 作用不显著,可及时从回归方程中剔除出去。
相关文档
最新文档