SAS系统和数据分析逐步回归分析

SAS系统和数据分析逐步回归分析
SAS系统和数据分析逐步回归分析

SAS系统和数据分析逐步回归分析

电子商务系列

第三十三课逐步回归分析

一、逐步回归分析

在一个多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些自变量的作用可以忽略。这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影响的部分自变量的问题。

在可能自变量的整个集合有40到60个,甚至更多的自变量的情况下,使用“最优”子集算法可能并不行得通。那么,逐步产生回归模型要含有的X变量子集的自动搜索方法,可能是有效的。逐步回归方法可能是应用最广泛的自动搜索方法。这是在求适度“好”的自变量子集时,同所有可能回归的方法比较,为节省计算工作量而产生的。从本质上说,这种方法在每一步增加或剔除一个X变量时,产生一系列回归模型。增加或剔除一个X变量的准则,可以等价地用误差平方和缩减量、偏相关系数或F统计量来表示。

无疑选择自变量要靠有关专业知识,但是作

电子商务系列 为起参谋作用的数学工具,往往是不容轻视的。通常在多元线性模型中,我们首先从专业角度选择有关的为数众多的因子,然后用数学方法从中选择适当的子集。本节介绍的逐步回归法就是人们在实际问题中常用的,并且行之有效的方法。

逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归平方和经检验是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著变量剔除,这样保证最后所得的变量子集中的所有变量都是显著的。这样经若干步以后便得“最优”变量子集。

逐步回归是这样一种方法,使用它时每一步只有一个单独的回归因子引进或从当前的回归模型中剔除。Efroymoson (1966)编的程序中,有两个F 水平,记作F in 和F out ,在每一步时,只有一个回归因子,比如说X i ,如果剔除它可能引起RSS 的减少不超过残差均方MSE (即ESS/(N-k-1))的F out 倍,则将它剔除;这就是在当前的回归模型中,用来检验βi =0的F 比MSE x x x RSS x x x x RSS i i i /)),,(),,,((121121--- 是小于或等于F out 。

若剔除的变量需要选择,则就选择使RSS 减

电子商务系列

少最少的那一个(或等价的选择F比最小的)。用这种方式如果没有变量被剔除,则开始引进一个回归因子,比如X j,如果引进它后使RSS的增加,至少是残差均方的F in倍,则将它引进。即若在当前模型加X j项后,为了检验βj=0的F比,F ≥F in时,则引进X j,其次,若引进的变量需要选择,则选择F比最大的。程序按照上面的步骤开始拟合,当没有回归因子能够引进模型时,该过程停止。

二、变量选择的方法

若在回归方程中增加自变量X i,称为“引入”变量X i,将已在回归方程中的自变量X j从回归方程中删除,则称为“剔除”变量X j。无论引入变量或剔除变量,都要利用F检验,将显著的变量引入回归方程,而将不显著的从回归方程中剔除。记引入变量F检验的临界值为F in(进),剔除变量F检验的临界值为F out(出),一般取F in≥F out,它的确定原则一般是对k个自变量的m个(m≤k),对显著性水平df1=1,df2=1-

N的F分布表

-m

的值,记为F*,则取F in=F out= F*。一般来说,

电子商务系列 也可以直接取F in =F out =2.0或2.5。当然,为了回归方程中还能够多进入一些自变量,甚至也可以取为1.0或1.5。

1. 变量增加法

首先对全部k 个自变量,分别对因变量Y 建立一元回归方程,并分别计算这k 个一元回归方程的k 个回归系数F 检验值,记为{1121

1,,k

F F F },选其最大的记为1

i F = max{11211,,k F F F },若有1i

F ≥ F in ,则首先将X 1引入回归方程,不失一般性,设X i 就是X 1。

接着考虑X 1分别与X 2,X 3,...,X k 与因变量Y 组成二元回归方程,对于这k -1个回归方程中X 2,...,X k 的回归系数进行F 检验,计算F 值,并选其最大的F 值2

j F ,若2j

F ≥F in ,则接着就将X j 引入回归方程,不失一般性,设X j 就是X 2。

对已经引入回归方程的变量X 1和X 2,如同前面的方法做下去,直至所有未被引入方程的变量的F 值均小于F in 时为止。这时的回归方程就是最终选定的回归方程。

显然,这种增加法有一定的缺点,主要是,它不能反映后来变化的情况。因为对于某个自变

电子商务系列 量,它可能开始是显著的,即将其引入到回归方程,但是,随着以后其他自变量的引入,它也可能又变为不显著了,但是,并没有将其及时从回归方程中剔除掉。也就是增加变量法,只考虑引入而不考虑剔除。

2. 变量减少法

与变量增加法相反,变量减少法是首先建立全部自变量X 1,X 2,...,X k 对因变量Y 的回归方程,然后对k 个回归系数进行F 检验,记求得的F 值为{1121

1,,k F F F },选其最小的记为1i F =min{11211,,k F F F },若有1

i

F ≤F out ,则可以考虑将自变量X i 从回归方程中剔除掉,不妨设X i 就取为X 1。

再对X 2,X 3,...,X k 对因变量Y 建立的回归方程重复上述过程,取最小的F 值为2

j F ,若有2j

F ≤F out ,则将X j 也从回归方程中剔除掉。不妨设X j 就是X 2。重复前面的做法,直至在回归方程中的自变量F 检验值均大于F out ,即没有变量可剔除为止。这时的回归方程就是最终的回归方程。

这种减少法也有一个明显的缺点,就是一开始把全部变量都引入回归方程,这样计算量比较大。若对一些不重要的变量,一开始就不引入,

电子商务系列 这样就可以减少一些计算。

3. 变量增减法

前面的两种方法各有其特点,若自变量X 1,X 2,...,X k 完全是独立的,则可结合这两种方法,但是,在实际的数据中,自变量X 1,X 2,...,X k 之间往往并不是独立的,而是有一定的相关性存在的,这就会使得随着回归方程中变量的增加和减少,某些自变量对回归方程的贡献也会发生变化。因此一种很自然的想法是将前两种方法综合起来,也就是对每一个自变量,随着其对回归方程贡献的变化,它随时可能被引入回归方程或被剔除出去,最终的回归模型是在回归方程中的自变量均为显著,不在回归方程中的自变量均不显著。

三、 引入变量和剔除变量的依据

如果在某一步时,已有l 个变量被引入到回归方程中,不妨设为l

X X X ,,,21 ,即已得回归方程: l

l X X X Y ββββ++++= 22110? (33.1) 并且有平方和分解式:

ESS RSS TSS += (33.2)

显然,回归平方和RSS 及残差平方和ESS 均与引

相关主题
相关文档
最新文档