(独家)回归分析概述和实例

(独家)回归分析概述和实例
(独家)回归分析概述和实例

§4 逐步回归分析

1、逐步回归分析的主要思路

在实际问题中, 人们总是希望从对因变量有影响的诸多变量中选择一些变量作为自变量, 应用多

元回归分析的方法建立“最优”回归方程以便对因变量进行预报或控制。所谓“最优”回归方程, 主要是

指希望在回归方程中包含所有对因变量影响显著的自变量而不包含对影响不显著的自变量的回归方程。逐步回归分析正是根据这种原则提出来的一种回归分析方法。它的主要思路是在考虑的全部自变量中

按其对的作用大小, 显著程度大小或者说贡献大小, 由大到小地逐个引入回归方程, 而对那些对作

用不显著的变量可能始终不被引人回归方程。另外, 己被引人回归方程的变量在引入新变量后也可能失去

重要性, 而需要从回归方程中剔除出去。引人一个变量或者从回归方程中剔除一个变量都称为逐步回归的

一步, 每一步都要进行检验, 以保证在引人新变量前回归方程中只含有对影响显著的变量, 而不显

著的变量已被剔除。

逐步回归分析的实施过程是每一步都要对已引入回归方程的变量计算其偏回归平方和(即贡献), 然后

选一个偏回归平方和最小的变量, 在预先给定的水平下进行显著性检验, 如果显著则该变量不必从回

归方程中剔除, 这时方程中其它的几个变量也都不需要剔除(因为其它的几个变量的偏回归平方和都大于

最小的一个更不需要剔除)。相反, 如果不显著, 则该变量要剔除, 然后按偏回归平方和由小到大地依次对方程中其它变量进行检验。将对影响不显著的变量全部剔除, 保留的都是显著的。接着再对未引人回归方程中的变量分别计算其偏回归平方和, 并选其中偏回归平方和最大的一个变量, 同样在给定水平

下作显著性检验, 如果显著则将该变量引入回归方程, 这一过程一直继续下去, 直到在回归方程中的变量

都不能剔除而又无新变量可以引入时为止, 这时逐步回归过程结束。

2、逐步回归分析的主要计算步骤

(1) 确定检验值

在进行逐步回归计算前要确定检验每个变量是否显若的检验水平, 以作为引人或剔除变量的标准。

检验水平要根据具体问题的实际情况来定。一般地, 为使最终的回归方程中包含较多的变量,水平

不宜取得过高, 即显著水平α不宜太小。水平还与自由度有关, 因为在逐步回归过程中, 回归方程中

所含的变量的个数不断在变化, 因此方差分析中的剩余自由度也总在变化, 为方便起见常按计算

自由度。为原始数据观测组数,为估计可能选人回归方程的变量个数。例如, 估计可能有2~

3个变量选入回归方程, 因此取自由度为15-3-1=11, 查分布表, 当α=0.1, 自由度,时, 临界值, 并且在引入变量时, 自由度取,,检验

的临界值记, 在剔除变量时自由度取,,检验的临界值记, 并要求, 实际应用中常取。

(2) 逐步计算

如果已计算步(包含=0), 且回归方程中已引入个变量, 则第步的计算为:

()计算全部自变量的贡献(偏回归平方和)。

()在已引入的自变量中, 检查是否有需要剔除的不显著变量。这就要在已引入的变量中选取具有最小

值的一个并计算其值, 如果, 表示该变量不显著, 应将其从回归方程中剔除, 计算转至()。

如则不需要剔除变量, 这时则考虑从未引入的变量中选出具有最大值的一个并计算值, 如果, 则表示该变量显著, 应将其引人回归方程, 计算转至()。如果, 表示已无变量可选入

方程, 则逐步计算阶段结束, 计算转人(3)。

()剔除或引人一个变量后, 相关系数矩阵进行消去变换, 第步计算结束。其后重复()~()再进行下步计算。

由上所述, 逐步计算的每一步总是先考虑剔除变量, 仅当无剔除时才考虑引入变量。实际计算时, 开头几步可能都是引人变量, 其后的某几步也可能相继地剔除几个变量。当方程中已无变量可剔除, 且又无变量可引入方程时, 第二阶段逐步计算即告结束, 这时转入第三阶段。

(3) 其他计算, 主要是计算回归方程入选变量的系数、复相关系数及残差等统计量。

逐步回归选取变量是逐渐增加的。选取第个变量时仅要求与前面己选的-1个变量配合起来有最小的残差平方和, 因此最终选出的个重要变量有时可能不是使残差平方和最小的个, 但大量实际问题

计算结果表明, 这个变量常常就是所有个变量的组合中具有最小残差平方和的那一个组合, 特别当不太大时更是如此, 这表明逐步回归是比较有效的方法。

引人回归方程的变量的个数与各变量贡献的显著性检验中所规定的检验的临界值与的取

值大小有关。如果希望多选一些变量进人回归方程, 则应适当增大检验水平α值, 即减小的值, 特别地, 当时, 则全部变量都将被选入, 这时逐步回归就变为一般的多元线性回归。相反, 如果α取得比较小, 即与取得比较大时, 则入选的变量个数就要减少。此外, 还要注意, 在实际问题中, 当观测数据样本容量较小时, 入选变量个数不宜选得过大, 否则被确定的系数的精度将较差。

多元回归分析经典例子的计算

均匀设计的数据处理多采用回归分析方法, 以下是均匀设计版本3.00的“数据建模分析”模块对部

分回归分析经典例子的计算结果, 这些计算采用与经典例子相同的回归分析方法, 所得结果与经典例子中

给出的结果是相同的。

均匀设计版本3.00提供的四种回归分析方法和计算的例子如下:

全回归法计算的例子和结果

例1高磷钢的效率()与高磷钢的出钢量()及高磷钢中的含量()有关, 所测数据如表1, 请用线性回归模型拟合上述数据。

出钢量()含量()效率()

注: 本例子引自秦建候邓勃王小芹编著,《分析测试数据统计处理中计算机的应用》, 化学工业出版社, 1989年

本软件给出的回归分析有关的结果如下(与回归分析无关的内容未列出):

指标名称: 效率单位: ?

因素1名称: 出钢量单位: ?

因素2名称: FeO含量单位: ?

------------------- 多元回归分析 -------------------

回归分析采用全回归法, 显著性水平α=0.10

拟建立回归方程:

y = b(0) + b(1)*X(1) + b(2)*X(2)

回归系数 b(i):

b(0)= 74.6

b(1)= 0.213

b(2)=-0.790

标准回归系数 B(i):

B(1)= 0.678

B(2)=-0.340

复相关系数R=0.6770

决定系数R^2=0.4583

修正的决定系数R^2a=0.4090

回归方程显著性检验:

变量分析表

样本容量N=13, 显著性水平α=0.10, 检验值Ft=4.230, 临界值F(0.10,2,10)=2.924, Ft>F(0.10,2,10), 回归方程显著。

剩余标准差s=3.91

回归系数检验值:

t检验值(df=10):

t(1)= 2.818

t(2)=-1.412

F检验值(df1=1, df2=10):

F(1)= 7.940

F(2)= 1.993

偏回归平方和 U(i):

U(1)=121

U(2)=30.4

偏相关系数ρ(i):

ρ1,2= 0.6653

ρ2,1=-0.4077

各方程项对回归的贡献(按偏回归平方和降序排列):

U(1)=121, U(1)/U=93.9%

U(2)=30.4, U(2)/U=23.6%

第2方程项[X(2)]对回归的贡献最小, 对其进行显著性检验:

检验值F(2)=1.993, 临界值F(0.10,1,10)=3.285,

F(2)≤F(0.10,1,10), 此因素(方程项)不显著。

残差分析:

残差分析表

------------------ 回归分析结束 ------------------

全回归法建立的回归方程为, 在显著性水平α=0.10上是显著的, 第二因素()在显著性水平α=0.10上不显著。

例2某种产品的得率()与反应温度()、反应时间()及某反应物的浓度()有关, 现得如表2所示的试验结果, 设与、和之间成线性关系, 试建立与、和之间的三元线性回归方程, 并判断三因素的主次。

反应温度()反应时间()反应物浓度()得率()

注: 本例子引自李云雁胡传荣编著,《试验设计与数据处理》, 化学工业出版社, 2005年

本软件给出的回归分析有关的结果如下(与回归分析无关的内容未列出):

指标名称: 得率单位: %

因素1名称: 反应温度单位: ℃

因素2名称: 反应时间单位: h

因素3名称: 反应物浓度单位: %

------------------- 多元回归分析 -------------------

回归分析采用全回归法, 显著性水平α=0.01

拟建立回归方程:

y = b(0) + b(1)*X(1) + b(2)*X(2) + b(3)*X(3)

回归系数 b(i):

b(0)= 2.19

b(1)= 4.88e-2

b(2)= 6.38e-2

b(3)= 1.31

标准回归系数 B(i):

B(1)= 0.316

B(2)= 0.413

B(3)= 0.850

复相关系数R=0.9965

决定系数R^2=0.9929

修正的决定系数R^2a=0.9901

回归方程显著性检验:

变量分析表

样本容量N=8, 显著性水平α=0.01, 检验值Ft=187.0, 临界值F(0.01,3,4)=16.69, Ft>F(0.01,3,4), 回归方程显著。

剩余标准差s=0.184

回归系数检验值:

t检验值(df=4):

t(1)= 7.506

t(2)= 9.815

t(3)= 20.21

F检验值(df1=1, df2=4):

F(1)= 56.33

F(2)= 96.33

F(3)= 408.3

偏回归平方和 U(i):

U(1)=1.90

U(2)=3.25

U(3)=13.8

偏相关系数ρ(i):

ρ1,23= 0.9663

ρ2,13= 0.9799

ρ3,12= 0.9951

各方程项对回归的贡献(按偏回归平方和降序排列):

U(3)=13.8, U(3)/U=72.8%

U(2)=3.25, U(2)/U=17.2%

U(1)=1.90, U(1)/U=10.0%

第1方程项[X(1)]对回归的贡献最小, 对其进行显著性检验:

检验值F(1)=56.33, 临界值F(0.01,1,4)=21.20,

F(1)>F(0.01,1,4), 此方程项显著。

残差分析:

残差分析表

------------------ 回归分析结束 ------------------

得率()与反应温度()、反应时间()及某反应物的浓度()之间具有非常显著的线性相关关系(在显著性水平α=0.01上显著)。由偏回归平方和的大小得知三因素的主次顺序为。

后退法计算的例子和结果

例3研究同一地区土壤中所含植物可给态磷的情况, 得到表1所示的18组数据。其中为土壤中所含无机磷浓度, 为土壤中溶于溶液并被溴化物水解的有机磷, 为土壤中溶于但不溶于溴化物的有机磷, 为栽在20℃土壤中的玉米内的可给态磷, 请建立它们的相关关系。

注: 本例子引自秦建候邓勃王小芹编著,《分析测试数据统计处理中计算机的应用》, 化学工业出版社, 1989年

本软件给出的回归分析有关的结果如下(与回归分析无关的内容未列出):

指标名称: 可给态磷单位: ppm

因素1名称: 无机磷浓度单位: ppm

因素2名称: K2CO3+Br 单位: ppm

因素3名称: K2CO3-Br 单位: ppm

------------------- 多元回归分析 -------------------

回归分析采用后退法, 显著性水平α=0.05

拟建立回归方程:

y = b(0) + b(1)*X(1) + b(2)*X(2) + b(3)*X(3)

回归系数 b(i):

b(0)= 43.7

b(1)= 1.78

b(2)=-8.34e-2

b(3)= 0.161

标准回归系数 B(i):

B(1)= 0.671

B(2)=-4.21e-2

B(3)= 0.273

复相关系数R=0.7412

决定系数R^2=0.5493

修正的决定系数R^2a=0.4893

回归方程显著性检验:

变量分析表

样本容量N=18, 显著性水平α=0.05, 检验值Ft=5.689, 临界值F(0.05,3,14)=3.344, Ft>F(0.05,3,14), 回归方程显著。

剩余标准差s=20.0

回归系数检验值:

t检验值(df=14):

t(1)= 3.319

t(2)=-0.1997

t(3)= 1.443

F检验值(df1=1, df2=14):

F(1)= 11.02

F(2)= 3.986e-2

F(3)= 2.082

偏回归平方和 U(i):

U(1)=4.39e+3

U(2)=15.9

U(3)=830

偏相关系数ρ(i):

ρ1,23= 0.6636

ρ2,13=-5.328e-2

ρ3,12= 0.3598

各方程项对回归的贡献(按偏回归平方和降序排列):

U(1)=4.39e+3, U(1)/U=64.6%

U(3)=830, U(3)/U=12.2%

U(2)=15.9, U(2)/U=0.234%

第2方程项[X(2)]对回归的贡献最小, 对其进行显著性检验:

检验值F(2)=3.986e-2, 临界值F(0.05,1,14)=4.600,

F(2)≤F(0.05,1,14), 此方程项不显著, 需要剔除。

第1次剔除不显著方程项, 新建回归方程继续计算:

回归方程:

y = b(0) + b(1)*X(1) + b(2)*X(3)

回归系数 b(i):

b(0)= 41.5

b(1)= 1.74

b(2)= 0.155

标准回归系数 B(i):

B(1)= 0.654

B(2)= 0.262

复相关系数R=0.7403

决定系数R^2=0.5481

修正的决定系数R^2a=0.5198

回归方程显著性检验:

变量分析表

样本容量N=18, 显著性水平α=0.05, 检验值Ft=9.095, 临界值F(0.05,2,15)=3.682, Ft>F(0.05,2,15), 回归方程显著。

剩余标准差s=19.3

回归系数检验值:

t检验值(df=15):

t(1)= 3.721

t(2)= 1.494

F检验值(df1=1, df2=15):

F(1)= 13.85

F(2)= 2.232

偏回归平方和 U(i):

U(1)=5.17e+3

U(2)=833

偏相关系数ρ(i):

ρ1,2= 0.6928

ρ2,1= 0.3599

各方程项对回归的贡献(按偏回归平方和降序排列):

U(1)=5.17e+3, U(1)/U=76.1%

U(2)=833, U(2)/U=12.3%

第2方程项[X(3)]对回归的贡献最小, 对其进行显著性检验: 检验值F(2)=2.232, 临界值F(0.05,1,15)=4.543,

F(2)≤F(0.05,1,15), 此方程项不显著, 需要剔除。

第2次剔除不显著方程项, 新建回归方程继续计算:

回归方程:

y = b(0) + b(1)*X(1)

回归系数 b(i):

b(0)= 59.3

b(1)= 1.84

标准回归系数 B(i):

B(1)= 0.693

复相关系数R=0.6934

决定系数R^2=0.4808

修正的决定系数R^2a=0.4808

回归方程显著性检验:

变量分析表

样本容量N=18, 显著性水平α=0.05, 检验值Ft=14.82, 临界值F(0.05,1,16)=4.494, Ft>F(0.05,1,16), 回归方程显著。

剩余标准差s=20.1

回归系数检验值:

t检验值(df=16):

t(1)= 3.849

F检验值(df1=1, df2=16):

F(1)= 14.82

偏回归平方和 U(i):

U(1)=5.96e+3

偏相关系数ρ(i):

ρ1,= 0.6934

各方程项对回归的贡献(按偏回归平方和降序排列):

U(1)=5.96e+3, U(1)/U=100%

对第1方程项[X(1)]进行显著性检验:

检验值F(1)=14.82, 临界值F(0.05,1,16)=4.494,

F(1)>F(0.05,1,16), 此方程项显著。

残差分析:

残差分析表

------------------ 回归分析结束 ------------------

后退归法所建立的回归方程为, 在显著性水平α=0.05上是显著的, 然后经过逐次剔除不显著的因素, 最后得到的只包含显著因素的优化的回归方程

为。

逐步回归法计算的例子和结果

例1某种水泥在凝固时放出的热量(卡/克)与水泥中下列四种化学成分有关:

: 的成分(%),

: 的成分(%),

: 的成分(%),

: 的成分(%)。

所测定数据如表1所示, 试建立与、、及的线性回归模型。

注: 本例子引自中国科学院数学研究室数理统计组编,《回归分析方法》, 科学出版社, 1974年本软件给出的回归分析有关的结果如下(与回归分析无关的内容未列出):

指标名称: 热量单位: 卡/克

因素1名称: 3CaO.Al2O3含量单位: %

因素2名称: 3CaO.SiO2含量单位: %

因素3名称: 4CaO.Al2O3.Fe2O3含量单位: %

因素4名称: 2CaO.SiO2含量单位: %

------------------- 多元回归分析 -------------------

回归分析采用逐步回归法, 显著性水平α=0.10

引入变量的临界值Fa=3.280

剔除变量的临界值Fe=3.280

拟建立回归方程:

y = b(0) + b(1)*X(1) + b(2)*X(2) + b(3)*X(3) + b(4)*X(4)

第1步, 引入变量:

各项的判别值(升序排列):

Vx(3)= 0.286

Vx(1)= 0.534

Vx(2)= 0.666

Vx(4)= 0.675

未引入项中, 第4项[X(4)]Vx值(≥0)的绝对值最大,

引入检验值Fa(4)=22.80, 引入临界值Fa=3.280,

Fa(4)>Fa, 引入第4项, 已引入项数=1。

第2步, 引入变量:

各项的判别值(升序排列):

Vx(4)=-0.675

Vx(2)= 5.52e-3

Vx(3)= 0.261

Vx(1)= 0.298

未引入项中, 第1项[X(1)]Vx值(≥0)的绝对值最大,

引入检验值Fa(1)=108.2, 引入临界值Fa=3.280,

Fa(1)>Fa, 引入第1项, 已引入项数=2。

第3步, 引入变量:

各项的判别值(升序排列):

Vx(4)=-0.439

Vx(1)=-0.298

Vx(3)= 8.81e-3

Vx(2)= 9.86e-3

未引入项中, 第2项[X(2)]Vx值(≥0)的绝对值最大,

引入检验值Fa(2)=5.026, 引入临界值Fa=3.280,

Fa(2)>Fa, 引入第2项, 已引入项数=3。

第4步, 剔除或引入变量:

各项的判别值(升序排列):

Vx(1)=-0.302

Vx(2)=-9.86e-3

Vx(4)=-3.66e-3

Vx(3)= 4.02e-5

已引入项中, 第4项[X(4)]Vx值(<0)的绝对值最小,

未引入项中, 第3项[X(3)]Vx值(≥0)的绝对值最大,

剔除检验值Fe(4)=1.863, 剔除临界值Fe=3.280,

Fe(4)≤Fe, 剔除第4项, 已引入项数=2。

第5步, 剔除或引入变量:

各项的判别值(升序排列):

Vx(2)=-0.445

Vx(1)=-0.312

Vx(3)= 3.61e-3

Vx(4)= 3.66e-3

已引入项中, 第1项[X(1)]Vx值(<0)的绝对值最小,

未引入项中, 第4项[X(4)]Vx值(≥0)的绝对值最大,

剔除检验值Fe(1)=146.5, 剔除临界值Fe=3.280,

Fe(1)>Fe, 不能剔除第1项。

引入检验值Fa(4)=1.863, 引入临界值Fa=3.280,

Fa(4)≤Fa, 不能引入第4项, 已引入项数=2。

变量筛选结果:

检验项数=4, 预期引入项数=3, 实际引入项数=2, 实际引入项数≠预期引入项数

回归方程:

y = b(0) + b(1)*X(1) + b(2)*X(2)

回归系数 b(i):

b(0)= 52.6

b(1)= 1.47

b(2)= 0.662

标准回归系数 B(i):

B(1)= 0.574

B(2)= 0.685

复相关系数R=0.9893

决定系数R^2=0.9787

修正的决定系数R^2a=0.9767

变量分析:

变量分析表

样本容量N=13, 显著性水平α=0.10, 检验值Ft=229.5, 临界值F(0.10,2,10)=2.924 剩余标准差s=2.41

回归系数检验值:

t检验值(df=10):

t(1)= 12.10

t(2)= 14.44

F检验值(df1=1, df2=10):

F(1)= 146.5

F(2)= 208.6

偏回归平方和 U(i):

U(1)=848

U(2)=1.21e+3

偏相关系数ρ(i):

ρ1,2= 0.9675

ρ2,1= 0.9769

各方程项对回归的贡献(按偏回归平方和降序排列):

U(2)=1.21e+3, U(2)/U=45.4%

U(1)=848, U(1)/U=31.9%

残差分析:

残差分析表

------------------ 回归分析结束 ------------------

逐步回归法计算得到的优化的回归方程为, 在显著性水平为α=0.10上

显著。

双重筛选逐步回归法计算的例子和结果

例1为了分析某地区自然经济条件对森林覆盖面积消长的影响而抽取12个村作为样本, 共测了12个因子, 各因子数据列于表1。

其中:

: 山地比例(%);

: 人口密度(人/);

: 人均收入增长率(元/年);

: 公路密度(100m/ha);

: 前汛期降水量(cm/年);

: 后汛期降水量(cm/年);

: 月平均最低温度(℃);

: 森林覆盖率(%);

: 针叶林比例(%);

: 造林面积(千亩/年);

: 年采伐面积(千亩/年);

: 火灾频数(次/年)。

注: 本例子引自裴鑫德编著,《多元统计分析及其应用》, 北京农业大学出版社, 1990年

本软件给出的回归分析有关的结果如下(与回归分析无关的内容未列出):

指标1名称: 森林覆盖率单位: %

指标2名称: 针叶林比例单位: %

指标3名称: 造林面积单位: 万亩/年

指标4名称: 年采伐面积单位: 千亩/年

指标5名称: 火灾频数单位: 次/年

因素1名称: 山地比例单位: %

因素2名称: 人口密度单位: 人/平方公里

因素3名称: 人均收入增长率单位: 元/年

因素4名称: 公路密度单位: 100米/公顷

因素5名称: 前汛期降水量单位: 厘米/年

因素6名称: 后汛期降水量单位: 厘米/年

因素7名称: 月平均最低温度单位: ℃

回归分析采用双重筛选逐步回归法, 显著性水平α=0.05

自变量引入、剔除的临界值Fx=2.000

因变量引入、剔除的临界值Fy=2.500

对指标1~5拟建立回归方程分别为:

y1 = b(0) + b(1)*X(1) + b(2)*X(2) + b(3)*X(3) + b(4)*X(4) + b(5)*X(5) + b(6)*X(6) + b(7)*X(7)

y2 = b(0) + b(1)*X(1) + b(2)*X(2) + b(3)*X(3) + b(4)*X(4) + b(5)*X(5) + b(6)*X(6) + b(7)*X(7)

y3 = b(0) + b(1)*X(1) + b(2)*X(2) + b(3)*X(3) + b(4)*X(4) + b(5)*X(5) + b(6)*X(6) + b(7)*X(7)

y4 = b(0) + b(1)*X(1) + b(2)*X(2) + b(3)*X(3) + b(4)*X(4) + b(5)*X(5) + b(6)*X(6) + b(7)*X(7)

y5 = b(0) + b(1)*X(1) + b(2)*X(2) + b(3)*X(3) + b(4)*X(4) + b(5)*X(5) + b(6)*X(6) + b(7)*X(7)

----- 计算第1组回归方程 -----

第1步, 引入方程项: y1

已引入因变量y的序号: 1

已引入自变量X的序号:

第2步, 自变量X引入或剔除判别:

各项的判别值(升序排列):

Vx(3)= 4.541e-2

Vx(5)= 0.2868

Vx(7)= 0.4082

Vx(4)= 0.4104

Vx(6)= 0.4731

Vx(2)= 0.5998

Vx(1)= 0.8810

未引入项中, 第1项[X(1)]Vx值(≥0)的绝对值最大,

引入检验值Fax(1)=74.00, 引入临界值Fx=2.000,

Fax(1)>Fx, 可以引入第1项。

第3步, 引入方程项: X(1)

已引入因变量y的序号: 1

已引入自变量X的序号: 1

第4步, 自变量X引入或剔除判别:

各项的判别值(升序排列):

Vx(1)=-7.400

Vx(5)= 1.359e-3

Vx(6)= 2.254e-2

Vx(3)= 4.720e-2

Vx(2)= 0.2260

Vx(7)= 0.2306

Vx(4)= 0.2372

已引入项中, 第1项[X(1)]Vx值(<0)的绝对值最小,

剔除检验值Fex(1)=74.00, 剔除临界值Fx=2.000,

Fex(1)>Fx, 不能剔除第1项, 检查是否可以引入其他自变量。

未引入项中, 第4项[X(4)]Vx值(≥0)的绝对值最大,

引入检验值Fax(4)=2.798, 引入临界值Fx=2.000,

Fax(4)>Fx, 可以引入第4项。

第5步, 引入方程项: X(4)

已引入因变量y的序号: 1

已引入自变量X的序号: 1,4

第6步, 自变量X引入或剔除判别:

各项的判别值(升序排列):

Vx(1)=-5.492

Vx(4)=-0.3109

Vx(5)= 1.370e-8

Vx(6)= 6.972e-3

Vx(2)= 4.284e-2

Vx(3)= 9.849e-2

Vx(7)= 0.2536

已引入项中, 第4项[X(4)]Vx值(<0)的绝对值最小,

剔除检验值Fex(4)=2.798, 剔除临界值Fx=2.000,

Fex(4)>Fx, 不能剔除第4项, 检查是否可以引入其他自变量。未引入项中, 第7项[X(7)]Vx值(≥0)的绝对值最大,

引入检验值Fax(7)=2.718, 引入临界值Fx=2.000,

Fax(7)>Fx, 可以引入第7项。

第7步, 引入方程项: X(7)

已引入因变量y的序号: 1

已引入自变量X的序号: 1,4,7

第8步, 自变量X引入或剔除判别:

各项的判别值(升序排列):

Vx(1)=-4.767

Vx(4)=-0.3513

Vx(7)=-0.3398

Vx(2)= 5.297e-2

Vx(5)= 6.120e-2

Vx(6)= 0.1234

Vx(3)= 0.1380

已引入项中, 第7项[X(7)]Vx值(<0)的绝对值最小,

剔除检验值Fex(7)=2.718, 剔除临界值Fx=2.000,

Fex(7)>Fx, 不能剔除第7项, 检查是否可以引入其他自变量。未引入项中, 第3项[X(3)]Vx值(≥0)的绝对值最大,

引入检验值Fax(3)=1.120, 引入临界值Fx=2.000,

Fax(3)≤Fx, 不能引入第3项, 检查是否可以引入其他因变量。

第9步, 因变量y引入或剔除判别:

各项的判别值(升序排列):

eviews多元线性回归案例分析

中国税收增长的分析 一、研究的目的要求 改革开放以来,随着经济体制的改革深化和经济的快速增长,中国的财政收支状况发生了很大的变化,中央和地方的税收收入1978年为519.28亿元到2002年已增长到17636.45亿元25年间增长了33倍。为了研究中国税收收入增长的主要原因,分析中央和地方税收收入的增长规律,预测中国税收未来的增长趋势,需要建立计量经济学模型。 影响中国税收收入增长的因素很多,但据分析主要的因素可能有:(1)从宏观经济看,经济整体增长是税收增长的基本源泉。(2)公共财政的需求,税收收入是财政的主体,社会经济的发展和社会保障的完善等都对公共财政提出要求,因此对预算指出所表现的公共财政的需求对当年的税收收入可能有一定的影响。(3)物价水平。我国的税制结构以流转税为主,以现行价格计算的DGP等指标和和经营者收入水平都与物价水平有关。(4)税收政策因素。我国自1978年以来经历了两次大的税制改革,一次是1984—1985年的国有企业利改税,另一次是1994年的全国范围内的新税制改革。税制改革对税收会产生影响,特别是1985年税收陡增215.42%。但是第二次税制改革对税收的增长速度的影响不是非常大。因此可以从以上几个方面,分析各种因素对中国税收增长的具体影响。 二、模型设定 为了反映中国税收增长的全貌,选择包括中央和地方税收的‘国家财政收入’中的“各项税收”(简称“税收收入”)作为被解释变量,以放映国家税收的增长;选择“国内生产总值(GDP)”作为经济整体增长水平的代表;选择中央和地方“财政支出”作为公共财政需求的代表;选择“商品零售物价指数”作为物价水平的代表。由于税制改革难以量化,而且1985年以后财税体制改革对税收增长影响不是很大,可暂不考虑。所以解释变量设定为可观测“国内生产总值(GDP)”、“财政支出”、“商品零售物价指数” 从《中国统计年鉴》收集到以下数据 财政收入(亿元) Y 国内生产总值(亿 元) X2 财政支出(亿 元) X3 商品零售价格指 数(%) X4 1978519.283624.11122.09100.7 1979537.824038.21281.79102 1980571.74517.81228.83106

应用回归分析,第5章课后习题参考答案.docx

第5 章自变量选择与逐步回归 思考与练习参考答案 自变量选择对回归参数的估计有何影响? 答:回归自变量的选择是建立回归模型得一个极为重要的问题。如果模型中丢 掉了重要的自变量, 出现模型的设定偏误,这样模型容易出现异方差或自相关 性,影响回归的效果;如果模型中增加了不必要的自变量, 或者数据质量很差的自变量, 不仅使得建模计算量增大, 自变量之间信息有重叠,而且得到的模型稳定性较差,影响回归模型的应用。 自变量选择对回归预测有何影响? 答:当全模型(m元)正确采用选模型(p 元)时,我们舍弃了m-p 个自变量,回归系数的最小二乘估计是全模型相应参数的有偏估计,使得用选模型的预测是有偏的,但由于选模型的参数估计、预测残差和预测均方误差具有较小的方差, 所以全模型正确而误用选模型有利有弊。当选模型(p 元)正确采用全模型(m 元)时,全模型回归系数的最小二乘估计是相应参数的有偏估计,使得用模型的预测是有偏的,并且全模型的参数估计、预测残差和预测均方误差的方差都比选 模型的大,所以回归自变量的选择应少而精。 如果所建模型主要用于预测,应该用哪个准则来衡量回归方程的优劣? 答:如果所建模型主要用于预测,则应使用C p 统计量达到最小的准则来衡量回 归方程的优劣。 试述前进法的思想方法。 答:前进法的基本思想方法是:首先因变量Y对全部的自变量x1,x2,...,xm 建立m个一元线性回归方程, 并计算 F 检验值,选择偏回归平方和显著的变量(F 值最大且大于临界值)进入回归方程。每一步只引入一个变量,同时建立m-1个二元线性回归方程,计算它们的 F 检验值,选择偏回归平方和显著的两变量变 量(F 值最大且大于临界值)进入回归方程。在确定引入的两个自变量以后,再 引入一个变量,建立m-2 个三元线性回归方程,计算它们的 F 检验值,选择偏

一元线性回归模型案例分析

一元线性回归模型案例分析 一、研究的目的要求 居民消费在社会经济的持续发展中有着重要的作用。居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。改革开放以来随着中国经济的快速发展,人民生活水平不断提高,居民的消费水平也不断增长。但是在看到这个整体趋势的同时,还应看到全国各地区经济发展速度不同,居民消费水平也有明显差异。例如,2002年全国城市居民家庭平均每人每年消费支出为6029.88元, 最低的黑龙江省仅为人均4462.08元,最高的上海市达人均10464元,上海是黑龙江的2.35倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,居民的收入水平、就业状况、零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我们研究的对象是各地区居民消费的差异。居民消费可分为城市居民消费和农村居民消费,由于各地区的城市与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城市居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。所以模型的被解释变量Y 选定为“城市居民每人每年的平均消费支出”。 因为研究的目的是各地区城市居民消费的差异,并不是城市居民消费在不同时间的变动,所以应选择同一时期各地区城市居民的消费支出来建立模型。因此建立的是2002年截面数据模型。 影响各地区城市居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。为了与“城市居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 从2002年《中国统计年鉴》中得到表2.5的数据: 表2.52002年中国各地区城市居民人均年消费支出和可支配收入

回归分析方法及其应用中的例子

3.1.2 虚拟变量的应用 例3.1.2.1:为研究美国住房面积的需求,选用3120户家庭为建模样本,回归模型为: 123log log P Y βββ++logQ= 其中:Q ——3120个样本家庭的年住房面积(平方英尺) 横截面数据 P ——家庭所在地的住房单位价格 Y ——家庭收入 经计算:0.247log 0.96log P Y -+logy=4.17 2 0.371R = ()() () 上式中2β=0.247-的价格弹性系数,3β=0.96的收入弹性系数,均符合经济学的常识,即价格上升,住房需求下降,收入上升,住房需求也上升。 但白人家庭与黑人家庭对住房的需求量是不一样的,引进虚拟变量D : 01i D ?=?? 黑人家庭 白人家庭或其他家庭 模型为:112233log log log log D P D P Y D Y βαβαβα+++++logQ= 例3.1.2.2:某省农业生产资料购买力和农民货币收入数据如下:(单位:十亿元) ①根据上述数据建立一元线性回归方程:

? 1.01610.09357y x =+ 20.8821R = 0.2531y S = 67.3266F = ②带虚拟变量的回归模型,因1979年中国农村政策发生重大变化,引入虚拟变量来反映农村政策的变化。 01i D ?=?? 19791979i i <≥年 年 建立回归方程为: ?0.98550.06920.4945y x D =++ ()() () 20.9498R = 0.1751y S = 75.6895F = 虽然上述两个模型都可通过显着性水平检验,但可明显看出带虚拟变量的回归模型其方差解释系数更高,回归的估计误差(y S )更小,说明模型的拟合程度更高,代表性更好。 3.5.4 岭回归的举例说明 企业为用户提供的服务多种多样,那么在这些服务中哪些因素更为重要,各因素之间的重要性差异到底有多大,这些都是满意度研究需要首先解决的问题。国际上比较流行并被实践所验证,比较科学的方法就是利用回归分析确定客户对不同服务因素的需求程度,具体方法如下: 假设某电信运营商的服务界面包括了A1……Am 共M 个界面,那么各界面对总体服务满意度A 的影响可以通过以A 为因变量,以A1……Am 为自变量的回归分析,得出不同界面服务对总体A 的影响系数,从而确定各服务界面对A 的影响大小。 同样,A1服务界面可能会有A11……A1n 共N 个因素的影响,那么利用上述方法也可以计算出A11……A1n 对A1的不同影响系数,由此确定A1界面中的重要因素。 通过两个层次的分析,我们不仅得出各大服务界面对客户总体满意度影响的大小以及不同服务界面上各因素的影响程度,同时也可综合得出某一界面某一因素对总体满意度的影响大小,由此再结合用户满意度评价、与竞争对手的比较等因素来确定每个界面细分因素在以后工作改进中的轻重缓急、重要性差异等,从而起到事半功倍的作用。 例 3.5.4:对某地移动通信公司的服务满意度研究中,利用回归方法分析各服务界面对总体满意度的影响。 a. 直接进入法 显然,这种方法计算的结果中,C 界面不能通过显着性检验,直接利用分析结果是错误

应用回归分析,第8章课后习题参考答案

第8章 非线性回归 思考与练习参考答案 8.1 在非线性回归线性化时,对因变量作变换应注意什么问题? 答:在对非线性回归模型线性化时,对因变量作变换时不仅要注意回归函数的形式, 还要注意误差项的形式。如: (1) 乘性误差项,模型形式为 e y AK L αβε =, (2) 加性误差项,模型形式为y AK L αβ ε = + 对乘法误差项模型(1)可通过两边取对数转化成线性模型,(2)不能线性化。 一般总是假定非线性模型误差项的形式就是能够使回归模型线性化的形式,为了方便通常省去误差项,仅考虑回归函数的形式。 8.2为了研究生产率与废料率之间的关系,记录了如表8.15所示的数据,请画出散点图,根据散点图的趋势拟合适当的回归模型。 表8.15 生产率x (单位/周) 1000 2000 3000 3500 4000 4500 5000 废品率y (%) 5.2 6.5 6.8 8.1 10.2 10.3 13.0 解:先画出散点图如下图: 5000.00 4000.003000.002000.001000.00x 12.00 10.00 8.006.00 y

从散点图大致可以判断出x 和y 之间呈抛物线或指数曲线,由此采用二次方程式和指数函数进行曲线回归。 (1)二次曲线 SPSS 输出结果如下: Model Summ ary .981 .962 .942 .651 R R Square Adjusted R Square Std. E rror of the Estimate The independent variable is x. ANOVA 42.571221.28650.160.001 1.6974.424 44.269 6 Regression Residual Total Sum of Squares df Mean Square F Sig.The independent variable is x. Coe fficients -.001.001-.449-.891.4234.47E -007.000 1.417 2.812.0485.843 1.324 4.414.012 x x ** 2 (Constant) B Std. E rror Unstandardized Coefficients Beta Standardized Coefficients t Sig. 从上表可以得到回归方程为:72? 5.8430.087 4.4710y x x -=-+? 由x 的系数检验P 值大于0.05,得到x 的系数未通过显著性检验。 由x 2的系数检验P 值小于0.05,得到x 2的系数通过了显著性检验。 (2)指数曲线 Model Summ ary .970 .941 .929 .085 R R Square Adjusted R Square Std. E rror of the Estimate The independent variable is x.

回归分析方法应用实例

4、回归分析方法应用实例 在制定运动员选材标准时,理论上要求先对不同年龄的运动员,各测试一个较大的样本,然后,计算出各年龄的平均数、标准差,再来制定标准。 但是,在实际工作中,有时某些年龄组不能测到较大的样本。这时能不能使用统计的方法,进行处理呢? 我们遇到一个实例。测得45名11至18岁男田径运动员的立定三级跳远数据。其各年龄组人数分布如表一。由于受到许多客观因素的限制,一时无法再扩大样本,因此决定使用统计方法进行处理。 第一步,首先用原始数据做散点图,并通过添加趋势线,看数据的变化趋势是否符合随年龄增长而变化的趋势,决定能否使用回归方程制定标准。如果趋势线不符合随年龄增长而变化的趋势,或者相关程度很差就不能用了。 本例作出的散点图如图1,图上用一元回归方法添加趋势线,并计算出年龄和立定三级跳远的: 一元回归方程:Y=2.5836+0.3392 X 相关系数 r=0.7945(P<0.01) 由于从趋势线可以看出,立定三级跳远的成绩是随年龄增加而逐渐增加,符合青少年的发育特点。而且, 相关系数r=0.7945,呈高度相关。因此,可以认为计算出的一元回归方程,反映了11至18岁男运动员年龄和立定三级跳远成绩的线性关系。决定用一元回归方程来制定各年龄组的标准。 第二步,用一元回归方程:Y=2.5836+0.3392 X 推算出各年龄的立定三级跳远回归值,作为各年龄组的第2等标准。 第三步,用45人的立定三级跳远数据计算出标准差为:0.8271。由于在正态分布下,如把平均数作为标准约有50%的人可达到标准,用平均数-0.25标准差制定标准则约有60%的人可达到,用平均数+0.25、+0.52、+0.84标准差制定标准约有40%、30%、20%的人可达到标准。本例用各年龄组回归值-0.25标准差、+0.25标准差、+0.52标准差、+0.84标准差计算出1至5等标准如表2、图2。

spss多元回归分析案例

企业管理 对居民消费率影响因素的探究 ---以湖北省为例改革开放以来,我国经济始终保持着高速增长的趋势,三十多年间综合国力得到显著增强,但我国居民消费率一直偏低,甚至一直有下降的趋势。居民消费率的偏低必然会导致我国内需的不足,进而会影响我国经济的长期健康发展。 本模型以湖北省1995年-2010年数据为例,探究各因素对居民消费率的影响及多元关系。(注:计算我国居民的消费率,用居民的人均消费除以人均GDP,得到居民的消费率)。通常来说,影响居民消费率的因素是多方面的,如:居民总收入,人均GDP,人口结构状况1(儿童抚养系数,老年抚养系数),居民消费价格指数增长率等因素。 总消费(C:亿元) 总GDP(亿元)消费率(%) 1995 1095.97 2109.38 51.96 1997 1438.12 2856.47 50.35 2000 1594.08 3545.39 44.96 2001 1767.38 3880.53 45.54 2002 1951.54 4212.82 46.32 2003 2188.05 4757.45 45.99 2004 2452.62 5633.24 43.54 2005 2785.42 6590.19 42.27 2006 3124.37 7617.47 41.02 2007 3709.69 9333.4 39.75 2008 4225.38 11328.92 37.30 1.人口年龄结构一种比较精准的描述是:儿童抚养系数(0-14岁人口与 15-64岁人口的比值)、老年抚养系数(65岁及以上人口与15-64岁人口的比值〉或总抚养系数(儿童和老年抚养系数之和)。0-14岁人口比例与65岁及以上人口比例可由《湖北省统计年鉴》查得。

应用回归分析第章课后习题答案

第6章 6.1 试举一个产生多重共线性的经济实例。 答:例如有人建立某地区粮食产量回归模型,以粮食产量为因变量Y,化肥用量为X1,水浇地面积为X2,农业投入资金为X3。由于农业投入资金X3与化肥用量X1,水浇地面积X2有很强的相关性,所以回归方程效果会很差。再例如根据某行业企业数据资料拟合此行业的生产函数时,资本投入、劳动力投入、资金投入与能源供应都与企业的生产规模有关,往往出现高度相关情况,大企业二者都大,小企业都小。 6.2多重共线性对回归参数的估计有何影响? 答:1、完全共线性下参数估计量不存在; 2、参数估计量经济含义不合理; 3、变量的显著性检验失去意义; 4、模型的预测功能失效。 6.3 具有严重多重共线性的回归方程能不能用来做经济预测? 答:虽然参数估计值方差的变大容易使区间预测的“区间”变大,使预测失去意义。但如果利用模型去做经济预测,只要保证自变量的相关类型在未来期中一直保持不变,即使回归模型中包含严重多重共线性的变量,也可以得到较好预测结果;否则会对经济预测产生严重的影响。 6.4多重共线性的产生于样本容量的个数n、自变量的个数p有无关系? 答:有关系,增加样本容量不能消除模型中的多重共线性,但能适当消除多重共线性造成的后果。当自变量的个数p较大时,一般多重共线性容易发生,所以自变量应选择少而精。 6.6对第5章习题9财政收入的数据分析多重共线性,并根据多重共线性剔除变量。将所得结果与逐步回归法所得的选元结果相比较。 5.9 在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量,自变量如下:x1为农业增加值(亿元),x2为工业增加值(亿元),x3为建筑业增加值(亿元),x4为人口数(万人),x5为社

SPSS线性回归分析案例

回归分析 实验内容:基于居民消费性支出与居民可支配收入的简单线性回归分析 【研究目的】 居民消费在社会经济的持续发展中有着重要的作用。影响各地区居民消费支出的因素很多,例如居民的收入水平、商品价格水平、收入分配状况、消费者偏好、家庭财产状况、消费信贷状况、消费者年龄构成、社会保障制度、风俗习惯等等。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的经济模型去研究。 【模型设定】 我们研究的对象是各地区居民消费的差异。由于各地区的城市与农村人口比例及经济结构有较大差异,现选用城镇居民消费进行比较。模型中被解释变量Y选定为“城市居民每人每年的平均消费支出”。从理论和经验分析,影响居民消费水平的最主要因素是居民的可支配收入,故可以选用“城市居民每人每年可支配收入”作为解释变量X,选取2010年截面数据。 1、实验数据 表1: (

2010年中国各地区城市居民人均年消费支出和可支配收入

} 数据来源:《中国统计年鉴》2010年 2、实验过程 作城市居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)的散点图,如图1:

表2 模型汇总b 模型… R R方调整R方标准估计的误差 1.965a.93 2.930 a.预测变量:(常量),可支配收入X(元)。 b.因变量:消费性支出Y(元) ~ 表3 相关性 消费性支出Y (元) 可支配收入X(元) Pearson相关 性消费性支出 Y(元) .965 从散点图可以看出居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)大体呈现为线性关系,所以建立如下线性模型:Y=a+bX

多元线性回归模型案例

我国农民收入影响因素的回归分析 本文力图应用适当的多元线性回归模型,对有关农民收入的历史数据和现状进行分析,探讨影响农民收入的主要因素,并在此基础上对如何增加农民收入提出相应的政策建议。?农民收入水平的度量常采用人均纯收入指标。影响农民收入增长的因素是多方面的,既有结构性矛盾因素,又有体制性障碍因素。但可以归纳为以下几个方面:一是农产品收购价格水平。二是农业剩余劳动力转移水平。三是城市化、工业化水平。四是农业产业结构状况。五是农业投入水平。考虑到复杂性和可行性,所以对农业投入与农民收入,本文暂不作讨论。因此,以全国为例,把农民收入与各影响因素关系进行线性回归分析,并建立数学模型。 一、计量经济模型分析 (一)、数据搜集 根据以上分析,我们在影响农民收入因素中引入7个解释变量。即:2x -财政用于农业的支出的比重,3x -第二、三产业从业人数占全社会从业人数的比重,4x -非农村人口比重,5x -乡村从业人员占农村人口的比重,6x -农业总产值占农林牧总产值的比重,7x -农作物播种面积,8x —农村用电量。

资料来源《中国统计年鉴2006》。 (二)、计量经济学模型建立 我们设定模型为下面所示的形式: 利用Eviews 软件进行最小二乘估计,估计结果如下表所示: DependentVariable:Y Method:LeastSquares Sample: Includedobservations:19 Variable Coefficient t-Statistic Prob. C X1 X3 X4 X5 X6 X7 X8 R-squared Meandependentvar AdjustedR-squared 表1最小二乘估计结果 回归分析报告为: () ()()()()()()()()()()()()()()() 2345678 2? -1102.373-6.6354X +18.2294X +2.4300X -16.2374X -2.1552X +0.0100X +0.0634X 375.83 3.7813 2.066618.37034 5.8941 2.77080.002330.02128 -2.933 1.7558.820900.20316 2.7550.778 4.27881 2.97930.99582i Y SE t R ===---=230.99316519 1.99327374.66 R Df DW F ====二、计量经济学检验 (一)、多重共线性的检验及修正 ①、检验多重共线性 (a)、直观法 从“表1最小二乘估计结果”中可以看出,虽然模型的整体拟合的很好,但是x4x6

应用回归分析_第3章课后习题参考答案

第3章 多元线性回归 思考与练习参考答案 见教材P64-65 讨论样本容量n 与自变量个数p 的关系,它们对模型的参数估计有何影响? 答:在多元线性回归模型中,样本容量n 与自变量个数p 的关系是:n>>p 。如果n<=p 对模型的参数估计会带来很严重的影响。因为: 1. 在多元线性回归模型中,有p+1个待估参数β,所以样本容量的个数应该大于解释变量的个数,否则参数无法估计。 2. 解释变量X 是确定性变量,要求()1rank p n =+

一般来说,R2越接近1,即R2取值越大,说明回归拟合的效果越好。但由于R2的大小与样本容量n和自变量个数p有关,当n与p的值接近时,R2容易接近1,说明R2中隐含着一些虚假成分。而当样本容量n较小,自变量个数p较大时,尽管R2很大,但参数估计效果很不稳定。所以该题中不能仅仅因为R2很大而断定回归方程很理想。如何正确理解回归方程显著性检验拒绝H0,接受H0? 答:一般来说,当接受假设H0时,认为在给定的显著性水平α之下,自变量x1,x2,…,x p对因变量y无显著性影响,则通过x1,x2,…,x p 去推断y就无多大意义。此时,一方面可能该问题本应该用非线性模型描述,我们误用线性模型描述了,使得自变量对因变量无显著影响;另一方面可能是在考虑自变量时,由于认识上的局限性把一些影响因变量y的自变量漏掉了,这就从两个方面提醒我们去重新考虑建模问题。 当拒绝H0时,也不能过于相信该检验,认为该模型已经很完美。其实当拒绝H时,我们只能认为该回归模型在一定程度上说明了自变量x1,x2,…,x p与因变量y的线性关系。因为这时仍不能排除我们漏掉了一些重要自变量。此检验只能用于辅助性的,事后验证性的目的。(详细内容可参考课本P95~P96评注。) 数据中心化和标准化在回归分析中的意义是什么? 答:原始数据由于自变量的单位往往不同,会给分析带来一定的困难;又由于设计的数据量较大,可能会以为舍入误差而使得计算结果并不理想。中心化和标准化回归系数有利于消除由于量纲不同、数量级不

多元线性回归实例分析

SPSS--回归-多元线性回归模型案例解析!(一) 多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程为: 毫无疑问,多元线性回归方程应该为: 上图中的x1, x2, xp分别代表“自变量”Xp截止,代表有P个自变量,如果有“N组样本,那么这个多元线性回归,将会组成一个矩阵,如下图所示: 那么,多元线性回归方程矩阵形式为: 其中:代表随机误差,其中随机误差分为:可解释的误差和不可解释的误差,随机误差必须满足以下四个条件,多元线性方程才有意义(一元线性方程也一样) 1:服成正太分布,即指:随机误差必须是服成正太分别的随机变量。 2:无偏性假设,即指:期望值为0 3:同共方差性假设,即指,所有的随机误差变量方差都相等 4:独立性假设,即指:所有的随机误差变量都相互独立,可以用协方差解释。 今天跟大家一起讨论一下,SPSS---多元线性回归的具体操作过程,下面以教程教程数据为例,分析汽车特征与汽车销售量之间的关系。通过分析汽车特征跟汽车销售量的关系,建立拟合多元线性回归模型。数据如下图所示:

点击“分析”——回归——线性——进入如下图所示的界面:

将“销售量”作为“因变量”拖入因变量框内,将“车长,车宽,耗油率,车净重等10个自变量拖入自变量框内,如上图所示,在“方法”旁边,选择“逐步”,当然,你也可以选择其它的方式,如果你选择“进入”默认的方式,在分析结果中,将会得到如下图所示的结果:(所有的自变量,都会强行进入) 如果你选择“逐步”这个方法,将会得到如下图所示的结果:(将会根据预先设定的“F统计量的概率值进行筛选,最先进入回归方程的“自变量”应该是跟“因变量”关系最为密切,贡献最大的,如下图可以看出,车的价格和车轴跟因变量关系最为密切,符合判断条件的概率值必须小于0.05,当概率值大于等于0.1时将会被剔除)

(完整word版)多元线性回归模型案例分析

多元线性回归模型案例分析 ——中国人口自然增长分析一·研究目的要求 中国从1971年开始全面开展了计划生育,使中国总和生育率很快从1970年的5.8降到1980年2.24,接近世代更替水平。此后,人口自然增长率(即人口的生育率)很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关,为了研究此后影响中国人口自然增长的主要原因,分析全国人口增长规律,与猜测中国未来的增长趋势,需要建立计量经济学模型。 影响中国人口自然增长率的因素有很多,但据分析主要因素可能有:(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。(3)文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。 二·模型设定 为了全面反映中国“人口自然增长率”的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。暂不考虑文化程度及人口分布的影响。 从《中国统计年鉴》收集到以下数据(见表1): 表1 中国人口增长率及相关数据

设定的线性回归模型为: 1222334t t t t t Y X X X u ββββ=++++ 三、估计参数 利用EViews 估计模型的参数,方法是: 1、建立工作文件:启动EViews ,点击File\New\Workfile ,在对 话框“Workfile Range ”。在“Workfile frequency ”中选择“Annual ” (年度),并在“Start date ”中输入开始时间“1988”,在“end date ”中输入最后时间“2005”,点击“ok ”,出现“Workfile UNTITLED ”工作框。其中已有变量:“c ”—截距项 “resid ”—剩余项。在“Objects ”菜单中点击“New Objects”,在“New Objects”对话框中选“Group”,并在“Name for Objects”上定义文件名,点击“OK ”出现数据编辑窗口。 年份 人口自然增长率 (%。) 国民总收入(亿元) 居民消费价格指数增长 率(CPI )% 人均GDP (元) 1988 15.73 15037 18.8 1366 1989 15.04 17001 18 1519 1990 14.39 18718 3.1 1644 1991 12.98 21826 3.4 1893 1992 11.6 26937 6.4 2311 1993 11.45 35260 14.7 2998 1994 11.21 48108 24.1 4044 1995 10.55 59811 17.1 5046 1996 10.42 70142 8.3 5846 1997 10.06 78061 2.8 6420 1998 9.14 83024 -0.8 6796 1999 8.18 88479 -1.4 7159 2000 7.58 98000 0.4 7858 2001 6.95 108068 0.7 8622 2002 6.45 119096 -0.8 9398 2003 6.01 135174 1.2 10542 2004 5.87 159587 3.9 12336 2005 5.89 184089 1.8 14040 2006 5.38 213132 1.5 16024

应用回归分析课后答案

应用回归分析课后答案 第二章一元线性回归 解答:EXCEL结果: SUMMARY OUTPUT 回归统计 Multiple R R Square Adjusted R Square 标准误差 观测值5 方差分析 df SS MS F Significance F 回归分析125 残差3 总计410 Coefficients标准误差t Stat P-value Lower 95%Upper 95%下限%上限% Intercept X Variable 15 RESIDUAL OUTPUT 观测值预测Y残差 1 2 3 4 5 SPSS结果:(1)散点图为:

(2)x 与y 之间大致呈线性关系。 (3)设回归方程为01y x ββ∧ ∧ ∧ =+ 1β∧ = 12 2 1 7()n i i i n i i x y n x y x n x -- =- =-=-∑∑ 0120731y x ββ-∧- =-=-?=- 17y x ∧ ∴=-+可得回归方程为 (4)22 n i=1 1()n-2i i y y σ∧∧=-∑ 2 n 01i=1 1(())n-2i y x ββ∧∧=-+∑ =222 22 13???+?+???+?+??? (10-(-1+71))(10-(-1+72))(20-(-1+73))(20-(-1+74))(40-(-1+75)) []1 169049363 110/3= ++++= 1 330 6.13 σ∧=≈ (5)由于2 11(, )xx N L σββ∧ :

t σ ∧ == 服从自由度为n-2的t分布。因而 /2 |(2)1 P t n α α σ ?? ?? <-=- ?? ?? 也即: 1/211/2 (p t t αα βββ ∧∧ ∧∧ -<<+=1α - 可得 1 95% β∧的置信度为的置信区间为(7-2.3537+2.353即为:(,) 2 2 00 1() (,()) xx x N n L ββσ - ∧ + : t ∧∧ == 服从自由度为n-2的t分布。因而 /2 (2)1 P t n α α ∧ ?? ?? ?? <-=- ?? ?? ?? ?? ?? 即 0/200/2 ()1 pβσββσα ∧∧∧∧ -<<+=- 可得 1 95%7.77,5.77 β∧- 的置信度为的置信区间为() (6)x与y的决定系数 2 21 2 1 () 490/6000.817 () n i i n i i y y r y y ∧- = - = - ==≈ - ∑ ∑ (7)

应用回归分析第三章课后习题整理

y1 1 x11 x12 x1p 0 1 3.1 y2 1 x21 x22 x2p 1 + 2 即y=x + yn 1 xn1 xn2 xnp p n 基本假定 (1) 解释变量x1,x2…,xp 是确定性变量,不是随机变量,且要求 rank(X)=p+1

n 注 tr(H) h 1 3.4不能断定这个方程一定很理想,因为样本决定系数与回归方程中 自变量的数目以及样本量n 有关,当样本量个数n 太小,而自变量又较 多,使样本量与自变量的个数接近时, R 2易接近1,其中隐藏一些虚 假成分。 3.5当接受H o 时,认定在给定的显著性水平 下,自变量x1,x2, xp 对因变量y 无显著影响,于是通过x1,x2, xp 去推断y 也就无多大意 义,在这种情况下,一方面可能这个问题本来应该用非线性模型去描 述,而误用了线性模型,使得自变量对因变量无显著影响;另一方面 可能是在考虑自变量时,把影响因变量y 的自变量漏掉了,可以重新 考虑建模问题。 当拒绝H o 时,我们也不能过于相信这个检验,认为这个回归模型 已经完美了,当拒绝H o 时,我们只能认为这个模型在一定程度上说明 了自变量x1,x2, xp 与自变量y 的线性关系,这时仍不能排除排除我 们漏掉了一些重要的自变量。 3.6中心化经验回归方程的常数项为0,回归方程只包含p 个参数估计 值1, 2, p 比一般的经验回归方程减少了一个未知参数,在变量较 SSE (y y)2 e12 e22 1 2 1 E( ) E( - SSE* - n p 1 n p n 2 [D(e) (E(e ))2 ] 1 n (1 1 n 2 en n E( e 1 1 n p 1 1 n p 1 1 "1 1 n p 1 J (n D(e) 1 (p 1)) 1_ p 1 1 1 n p 1 2 2 n E(e 2 ) (1 h ) 2 1

多元回归分析实例

某农场负责人认为早稻收获量(y :单位为kg/公顷)与春季降雨(x 1:单位为mm )和春季温度(x 2:单位为℃)有一定的联系,通过7组试验获得了相关的数据。利用Excel 得到下面的回归结果(α=0.1): 方差分析表 (2)写出早稻收获量与春季降雨量、春季温度的多元线性回归方程,并解释各回归系数的意义。 (3)检验回归方程的线性关系是否显著? (4)检验各回归系数是否显著? (5)计算判定系数2 R ,并解释它的实际意义。 (6)计算估计标准误差Se ,并解释它的实际意义。 (每个空格为0.5分) -----3分 2、设总体回归模型为Y =1 2 1 2 x x αεββ+ ++ 估计回归方程为y ?=1 2 1 2 ???x x αββ++,由EXCEL 输出结果可知,y ?=120.3914.92218.45-++x x ,回归系数1 ?β 的意义指在温度不变的条件下,当降雨量每增加1mm ,早稻收获量平均增加14.92kg/公顷;回归系数 2 ?β 的意义指在降雨量不变的条件下, 当温度增加1℃,早稻收获量平均增加218.45kg/公顷。 ---5分

3、由于p 值=0.000075<α=0.05,则拒绝原假设,即表明回归方程的线性关系是显著的。 ---2分 4、由于各回归系数的P 值均小于α(0.05),所以各回归系数是显著的。 ---2分 5、 2 13878495.67 0.9914000000 = ==SSR SST R ,表示早稻收获量的总变异中有99%的部分可以由降雨量、温度的联合变动来解释。 ---4分 6、 174.29= ===e S (k 为自变量个数) ,是总体回归模型中随机扰动项ε的标准差的无偏估计量,用来衡量回归方程拟合程度的分析指标,e S 越大, 拟合程度越低;e S 越小,拟合程度越高. ---4分

第一章课后习题解答(应用回归分析)

1、 变量间统计关系和函数关系的区别是什么 答:函数关系是一种确定性的关系,一个变量的变化能完全决定另一个变量的变化;统计关系是非确定的,尽管变量间的关系密切,但是变量不能由另一个或另一些变量唯一确定。 2、 回归分析与相关分析的区别和联系是什么 答:联系:刻画变量间的密切联系; 区别:一、回归分析中,变量y 称为因变量,处在被解释的地位,而在相关分析中,变量y 与x 处于平等地位;二、相关分析中y 与x 都是随机变量,而回归分析中y 是随机的,x 是非随机变量。三、回归分析不仅可以刻画线性关系的密切程度,还可以由回归方程进行预测和控制。 3、 回归模型中随机误差项ε的意义是什么主要包括哪些因素 答:随机误差项ε的引入,才能将变量间的关系描述为一个随机方程。主要包括:时间、费用、数据质量等的制约;数据采集过程中变量观测值的观测误差;理论模型设定的误差;其他随机误差。 4、 线性回归模型的基本假设是什么 答:1、解释变量非随机;2、样本量个数要多于解释变量(自变量)个数;3、高斯-马尔科夫条件;4、随机误差项相互独立,同分布于2(0,)N σ。 5、 回归变量设置的理论根据在设置回归变量时应注意哪些问题 答:因变量与自变量之间的因果关系。需注意问题:一、对所研究的问题背景要有足够了解;二、解释变量之间要求不相关;三、若某个重要的变量在实际中没有相应的统计数据,应考虑用相近的变量代替,或者由其他几个指标复合成一个新的指标;四、解释变量并非越多越好。 6、 收集、整理数据包括哪些内容 答:一、收集数据的类型(时间序列、截面数据);二、数据应注意可比性和数据统计口径问题(统计范围);三、整理数据时要注意出现“序列相关”和“异

一般线性回归分析案例

一般线性回归分析案例 1、案例 为了研究钙、铁、铜等人体必需元素对婴幼儿身体健康的影响,随机抽取了30个观测数据,基于多员线性回归分析的理论方法,对儿童体内几种必需元素与血红蛋白浓度的关系进行分析研究。这里,被解释变量为血红蛋白浓度(y),解释变量为钙(ca)、铁(fe)、铜(cu)。 表一血红蛋白与钙、铁、铜必需元素含量 (血红蛋白单位为g;钙、铁、铜元素单位为ug) case y(g)ca fe cu 17.0076.90295.300.840 27.2573.99313.00 1.154 37.7566.50350.400.700 48.0055.99284.00 1.400 58.2565.49313.00 1.034 68.2550.40293.00 1.044 78.5053.76293.10 1.322 88.7560.99260.00 1.197 98.7550.00331.210.900 109.2552.34388.60 1.023 119.5052.30326.400.823 129.7549.15343.000.926 1310.0063.43384.480.869 1410.2570.16410.00 1.190 1510.5055.33446.00 1.192 1610.7572.46440.01 1.210 1711.0069.76420.06 1.361 1811.2560.34383.310.915 1911.5061.45449.01 1.380 2011.7555.10406.02 1.300 2112.0061.42395.68 1.142 2212.2587.35454.26 1.771 2312.5055.08450.06 1.012 2412.7545.02410.630.899 2513.0073.52470.12 1.652 2613.2563.43446.58 1.230

回归分析的基本思想及其初步应用

第一章:统计案例 回归分析的基本思想及其初步应用实例 为172cm的女大学生的体重. 解:由于问题中要求根据身高预报体重,因此选自变量x,为因变量. (1)做散点图: 从散点图可以看出和有比较好的 相关关系. (2) = = 所以 于是得到回归直线的方程为 (3)身高为172cm的女大学生,由回归方程可以预报其体重为 新知:用相关系数r可衡量两个变量之间关系.计算公式为 r = r>0, 相关, r<0 相关; 相关系数的绝对值越接近于1,两个变量的线性相关关系,它们的散点图越接近; ,两个变量有关系. x y 8 1 i i i x y = = ∑ 8 2 1 i i x = = ∑ 8 1 82 2 1 8 8 i i i i i x y x y b x x = = - == - ∑ ∑ a y bx =-≈ y= r>

例1某班5名学生的数学和物理成绩如下表: (2) 求物理成绩y 对数学成绩x 的回归直线方程; (3) 该班某学生数学成绩为96,试预测其物理成绩; 练习1:下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量(吨)与相应的生产能耗 (吨标准煤)的几组对照数据 (1)请画出上表数据的散点图; (2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值) x y y x y bx a =+3 2.543546 4.566.5?+?+?+?=

相关文档
最新文档