逐步回归分析实例

逐步回归分析实例
逐步回归分析实例

逐步回归分析

在自变量很多时,其中有的因素可能对应变量的影响不是很大,而且x之间可能不完全相互独立的,可能有种种互作关系。在这种情况下可用逐步回归分析,进行x因子的筛选,这样建立的多元回归模型预测效果会更较好。

逐步回归分析,首先要建立因变量y与自变量x之间的总回归方程,再对总的方程及每一个自变量进行假设检验。当总的方程不显著时,表明该多元回归方程线性关系不成立;而当某一个自变量对y影响不显著时,应该把它剔除,重新建立不包含该因子的多元回归方程。筛选出有显著影响的因子作为自变量,并建立“最优”回归方程。

回归方程包含的自变量越多,回归平方和越大,剩余的平方和越小,剩余均方也随之

较小,预测值的误差也愈小,模拟的效果愈好。但是方程中的变量过多,预报工作量就会越

大,其中有些相关性不显著的预报因子会影响预测的效果。因此在多元回归模型中,选择适宜的变量数目尤为重要。

逐步回归在病虫预报中的应用实例:

以省长武地区1984~1995年的烟蚜传毒病情资料、相关虫情和气象资料为例(数据见

DATA6.xls ),建立蚜传病毒病情指数的逐步回归模型,说明逐步回归分析的具体步骤。影

响蚜传病毒病情指数的虫情因子和气象因子一共有21个,通过逐步回归,从中选出对病情

指数影响显著的因子,从而建立相应的模型。对1984~1995年的病情指数进行回检,然后对1996~1998年的病情进行预报,再检验预报的效果。

变量说明如下:

x11:5月份均温

y: 历年病情指数x12:5月份降水量

x1前年冬季油菜越冬时的蚜量(头/ 株)

x13:6月份均温

x2前年冬季极端气温x14:6月份降水量

x35月份最高气温x15:第一次蚜迁高峰期百株烟草x45月份最低气温有翅蚜量

x53~5月份降水量x16:5月份油菜百株蚜量

x6: 4~6月份降水量x17:7月份降水量

x7:3~5月份均温x18:8月份降水量

x8:4~6月份均温x19:7月份均温

x9: 4月份降水量x20:8月份均温

x10:4月份均温x21:元月均温

1)准备分析数据

在SPSS数据编辑窗口中,用“ File T Oper^Data”命令,打开“ DATA6.xls”数据文

件。数据工作区如下图3-1显示。

图3-1

2)启动线性回归过程

单击SPSS主菜单的"Analyze ”下的"Regression ”中"Linear ”项,将打开如图3-2 所示的线性回归过程窗口。

图3-2线性回归对话窗口

3) 设置分析变量

设置因变量:将左边变量列表中的“ y”变量,选入到“ Dependent”因变量显示栏里。

设置自变量:将左边变量列表中的“ x1” ~ “x21 ”变量,全部选移到

"Independent(S) ” 自变量栏里。

设置控制变量:本例子中不使用控制变量,所以不选择任何变量。

选择标签变量:选择“年份”为标签变量。

选择加权变量:本例子没有加权变量,因此不作任何设置。

4) 回归方式

在“ Method”分析方法框中选中“ Stepwise ”逐步分析方法。该方法是根据

“Options ”选择对话框中显著性检验 (F )的设置,在方程中进入或剔除单个变量, 直到所 建立的方程中不再含有可加入或可剔除的变量为止。设置后的对话窗口如图 3-3。 图3-3

5)设置变量检验水平

在图6-15主对话框里单击“ Options ”按钮,将打开如图 3-4

所示的对话框。

图3-4

“ Steppi ng Method Criteria ”框里的设置用于逐步回归分析的选择标准。

其中"Use probability of F ”选项,提供设置显著性F检验的概率。如果一个变量

的F检验概率小于或等于进入“ Entry ”栏里设置的值,那么这个变量将被选入回归方程中;

当回归方程中变量的F值检验概率大于剔除“ Remova”栏里设置的值,则该变量将从回归

方程中被剔除。由此可见,设置F检验概率时,应使进入值小于剔除值。

“ Ues F value ” 选项,提供设置显著性F检验的分布值。如果一个变量的F值大于所设置的进入值(Entry ),那么这个变量将被选入回归方程中;当回归方程中变量的F值小于设置的剔除值(Removal),则该变量将从回归方程中被剔除。同时,设置F分布值时,应该使进入值大于剔除值。

本例子使用显著性F检验的概率,在进入“ Entry ”栏里设置为“ 0.15 ”,在剔除“Remova”栏里设置为“ 0.20” (剔除的概率值应比进入的值大),如图6-17所示。

图6-17窗口中的其它设置参照一元回归设置。

6)设置输出统计量

在主对话图3-2窗口中,单击“ Statistics ”按钮,将打开如图6-18所示的对话框。该对话框用于设置相关参数。其中各项的意义分别为:

图3-5 “ Statistics ” 对话框

①“Regression Coefficients ”回归系数选项:

“Estimates ”输出回归系数和相关统计量。

“ Con fide nee in terval ”回归系数的95%置信区间。

“Covarianee matrix ”回归系数的方差-协方差矩阵。

本例子选择"Estimates ”输出回归系数和相关统计量。

②“Residuals ”残差选项:

“Durbin - Watson" Durbin -Watson 检验。

“Casewise diagnostic ”输出满足选择条件的观测量的相关信息。选择该项,下面两项处于可选状态:

"Outliers outside standard deviations ”选择标准化残差的绝对值

大于输入值的观测量;

“All cases ”选择所有观测量。

本例子都不选。

③其它输入选项

相关主题
相关文档
最新文档