回归分析总结

回归分析总结
回归分析总结

回归分析

应用最广泛的一种办法。但回归分析要求大样本,只有通过大量的数据才能得到量化的 规律,这对很多无法得到或一时缺乏数据的实际问题的解决带来困难。回归分析还要求几 样本有较好的分布规律,而很多实际情形并非如此。例如,我国建国以来经济方面有次大起大落,难以满足样本有较规律的分布要求。因此,有了大量的数据也不一定能得到统计规律,甚至即使得到了统计规律,也并非任何情况都可以分析。另外,回归分析不能分析因素间动态的关联程度,即使是静态,其精度也不高,且常常出现反常现象前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数据拟合得最好。通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看,问题似乎已经完全解决了,还有进一步研究的必要吗? 从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些 系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间 太大,甚至包含了零点,那么系数的估计值是没有多大意义的。另外也可以用方差分析 方法对模型的误差进行分析,对拟合的优劣给出评价。简单地说,回归分析就是对拟合 问题作的统计分析。

数据的标准化处理数据的中心化处理是指平移变换 数据的无量纲化处理在实际问题中,不同变量的测量单位往往是不一样的。为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理,即使每个变量的方差均变成 1

标准化处理所谓对数据的标准化处理,是指对数据同时进行中心化-压缩处理 一元线性回归假设对于x 的n 个值i

x ,得到y 的n 个相应的值

i

y ,确定

01

ββ,的方法是根

据最小二乘准则,要使

22

01011

1

(,)[()]n

n

i i

i i i Q y

x ββεββ===

=

-+∑∑

取最小值。利用极值必要条件令010,0Q Q

ββ??==??,求01ββ,的估计值

01??ββ,,从而得到回归直线

01??y x ββ=+。只不过这个过程可以由软件通过直线拟合完成,而无须进行繁杂的

运算。

(1)参数的区间估计

由于我们所计算出的01??ββ,仍然是随机变量,因此要对01??ββ,取值的区间进行估计,如果

区间估计值是一个较短的区间表示模型精度较高。

(2)对误差方差的估计 设

?i y

为回归函数的值,

i

y 为测量值,残差平方和

21

?()n

i i i Q y y

==-∑

剩余方差

22Q s n =

-

(3)线性相关性的检验

由于我们采用的是一元线性回归,因此,如果模型可用的话,应该具有较好的线性关系。反映模型是否具有良好线性关系可通过相关系数R 的值及F 值观察(后面的例子说明)。 一个好的拟合方程,其残差总和应越小越好。残差越小,拟合值与观测值越接近, 各观测点在拟合直线周围聚集的紧密程度越高,也就是说,拟合方程的能力越强。 另外,当e S 越小时,还说明残差值i e 的变异程度越小。由于残差的样本均值为零, 所以,其离散范围越小,拟合的模型就越为精确。 例1 测得16名成年女子身高y 与腿长x 所得数据如下: 表8-1 16名女子身高(cm)腿长(cm)数据

x 88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102 y 143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164

首先利用命令plot(x,y,'r*')画出散点图,从图形可以看出,这些点大致分布在一条直线的左右,因此,可以考虑一元线性回归。可编制程序如下: %输入y (因变量,列向量)、x (1与自变量组成的矩阵,见下例),alpha 是显著性水平(缺

省时默认0.05)。输出01

??(,)b ββ=,注意:b 中元素顺序(系数)与拟合命令polyfit 的输出不同,bint 是01ββ,的置信区间,r 是残差(列向量),rint 是残差的置信区间,s 包含4个统计量:决定系数2

R (相关系数为R );F 值;F(1,n-2)分布大于F 值的概率p ;剩余方差

2s 的值(MA TLAB7.0以后版本)。2s 也可由程序sum(r.^2)/(n-2)计算。

其意义和用法如下:2

R 的值越接近1,变量的线性相关性越强,说明模型有效;如果满足

1(1,2)F n F α--<,则认为变量y 与x 显著地有线性关系,其中1(1,2)F n α--的值可查F 分

布表,或直接用MA TLAB 命令finv(1-α,1, n-2)计算得到;如果p α<表示线性模型可用。这三个值可以相互印证。2s 的值主要用来比较模型是否有改进,其值越小说明模型精度越高。

y=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164];

x=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]; plot(x,y,'r*') n=16;

X=[ones(n,1),x'];

[b,bint,r,rint,s]=regress(y',X,0.05); b,bint,s,

rcoplot(r,rint)

运行后得到

b = 31.7713 1.2903 bint = 12.3196 51.2229 1.0846 1.4960

s = 0.9282 180.9531 0.0000 3.1277

2R =0.9282,由finv(0.95,1,14)= 4.6001,即1(1,2)F n α--= 4.6001

可以通过残差图发现,第二个数据为奇异数据,去掉该数据后运行后得到 b = 17.6549 1.4363 bint = -0.5986 35.9083 1.2445 1.6281

s = 0.9527 261.6389 0.0000 1.9313

2R =0.9527,由finv(0.95,1,13)= 4.6672,即1(1,2)F n α--= 4.6672

17.6549 1.4363y x =+。

当然,也可以利用直线拟合得到同一方程。只不过不能得到参数置信区间和对模型进行检验。拟合程序如下: 多元线性回归分析

1 多元线性回归模型的建模步骤及其MATLAB 实现

如果根据经验和有关知识认为与因变量有关联的自变量不止一个,那么就应该考虑用最小二乘准则建立多元线性回归模型。

设影响因变量y 的主要因素(自变量)有m 个,记1(,,)

m x x x =,假设它们有如下

的线性关系式:

011m m y x x βββε

=++++ , 2

~(0,)

N εσ 如果对变量y 与自变量12,,

,m

x x x 同时作n 次观察(n>m )得n 组观察值,采用最小二乘

估计求得回归方程

011????k m

y x x βββ=+++.

建立回归模型是一个相当复杂的过程,概括起来主要有以下几个方面工作(1)根据研究目

的收集数据和预分析;(2)根据散点图是否具有线性关系建立基本回归模型;(3)模型的精细分析;(4)模型的确认与应用等。

收集数据的一个经验准则是收集的数据量(样本容量)至少应为可能的自变量数目的6~10倍。在建模过程中首先要根据所研究问题的目的设置因变量,然后再选取与该因变量有统计关系的一些变量作为自变量。我们当然希望选择与问题关系密切的变量,同时这些变量之间

相关性不太强,这可以在得到初步的模型后利用MATLAB 软件进行相关性检验。下面通过一个案例探讨MATLAB 软件在回归分析建模各个环节中如何应用。 多元线性回归的MATLAB 实现

仍然用命令regress(y , X),只是要注意矩阵X 的形式,将通过如下例子说明其用法。

表8-2 从事某种研究的学者的相关指标数据

i

1 2 3 4 5 6 7 8 9 10 11 12 1i x 3.5 5.3 5.1 5.8 4.2 6.0 6.8 5.5 3.1 7.2 4.5 4.9 2i x 9 20 18 33 31 13 25 30 5 47 25 11 3i x 6.1

6.4

7.4

6.7

7.5

5.9

6.0

4.0

5.8

8.3

5.0

6.4

i y

33.2 40.3 38.7 46.8 41.4 37.5 39.0 40.7 30.1 52.9 38.2 31.8

作出因变量Y 与各自变量的样本散点图

作散点图的目的主要是观察因变量Y 与各自变量间是否有比较好的线性关系,以便选择恰当的数学模型形式。下图分别为年薪Y 与成果质量指标1X 、研究工作时间2X 、获得资助的指标3X 之间的散点图,

subplot(1,3,1),plot(x1,Y,'g*'), subplot(1,3,2),plot(x2,Y,'k+'), subplot(1,3,3),plot(x3,Y,'ro'),

从图可以看出这些点大致分布在一条直线旁边,因此,有比较好的线性关系,可以采用线性回归。

0510

30

35404550

55

050

30

3540455055

0510

30

35

40

45

50

55

Y 与x1的散点图 Y 与x2的散点图 Y 与x3的散点图

图8.1 因变量Y 与各自变量的样本散点图

3. 利用MATLAB 统计工具箱得到初步的回归方程

设回归方程为:0112333

?????y x x x ββββ=+++.

建立m-文件输入如下程序数据:

n=24; m=3;

X=[ones(n,1),x1',x2',x3'];

[b,bint,r,rint,s]=regress(Y',X,0.05); b,bint,r,rint,s, rcoplot(r,rint)

运行后即得到结果如表8-3所示。 表8-3 对初步回归模型的计算结果

回归系数

回归系数的估计值 回归系数的置信区间 0β

18.0157 [13.9052 22.1262] 1β 1.0817 [0.3900 1.7733] 2β 0.3212 [0.2440 0.3984] 3

β

1.2835

[0.6691 1.8979]

2R =0.9106 F=67.9195 p<0.0001 2

s = 3.0719

计算结果包括回归系数b=(

0123,,,ββββ)=(18.0157, 1.0817 , 0.3212 , 1.2835),且置信

区间均不包含零点,;残差及其置信区间;统计变量stats ,它包含四个检验统计量:相关系数的平方2

R ,假设检验统计量F,与F 对应的概率p ,2

s 的值(7.0以前版本2

s 也可由程序sum(r.^2)/(n-m-1)计算)。因此我们得到初步的回归方程为:

123?18.0157 1.08170.3212 1.2835y

x x x =+++

由结果对模型的判断:

回归系数置信区间不包含零点表示模型较好,残差在零点附近也表示模型较好,接着就是利用检验统计量R,F,p 的值判断该模型是否可用。

(1)相关系数R的评价:一般地,相关系数绝对值在0.8~1范围内,可判断回归自变量与因变量具有较强的线性相关性。本例R的绝对值为0.9542,表明线性相关性较强。

(2)F 检验法:当

1(,1)

F F m n m α->--,即认为因变量y 与自变量

12,,,m

x x x 之

间显著地有线性相关关系;否则认为因变量y 与自变量12,,,m

x x x 之间线性相关关系不显

著。本例 F=67.919>

10.05(3,20)

F -= 3.10 (查F 分布表或输入命令finv(0.95,3,20)计算)。

(3)p 值检验:若p α<(α为预定显著水平),则说明因变量y 与自变量12

,,

,m

x x x 之间显著地有线性相关关系。本例输出结果,p<0.0001,显然满足P<α=0.05。

以上三种统计推断方法推断的结果是一致的,说明因变量y 与自变量之间显著地有线性相关关系,所得线性回归模型可用。2

s 当然越小越好,这主要在模型改进时作为参考。 模型的精细分析和改进

(1) 残差分析 残差

?(1,2,,)

i i i e y y

i n =-=,是各观测值

i

y 与回归方程所对应得到的拟合值

?i y

差,实际上,它是线性回归模型中误差ε的估计值。

2

~(0,)N εσ即有零均值和常值方差,利用残差的这种特性反过来考察原模型的合理性就是残差分析的基本思想。利用MA TLAB

进行残差分析则是通过残差图或时序残差图。残差图是指以残差为纵坐标,以其他指定的量为横坐标的散点图。主要包括:(1)横坐标为观测时间或观测值序号;(2)横坐标为某个自变量的观测值;(3)横坐标为因变量的拟合值。通过观察残差图,可以对奇异点进行分析,还可以对误差的等方差性以及对回归函数中是否包含其他自变量、自变量的高次项及交叉项等问题给出直观的检验。

以观测值序号为横坐标,残差为纵坐标所得到的散点图称为时序残差图,画出时序残差图的MATLAB 语句为rcoplot(r,rint)(图8.2)。可以清楚看到残差大都分布在零的附近,因此还是比较好的 ,不过第4、12、19这三个样本点的残差偏离原点较远,如果作为奇异点看待,去掉后重新拟合,则得回归模型为:

123?19.08080.86160.3176 1.3463y

x x x =+++

且回归系数的置信区间更小均不包含原点,统计变量stats 包含的三个检验统计量:相关系数的平方2

R ,假设检验统计量F,概率P ,分别为:0.9533 ; 115.5586 ; 0.0000 ,比较可知R ,F 均增加模型得到改进。

图8.2 时序残差图 (2) 变量间的交互作用讨论

变量间的交互作用包括:不同自变量之间的交互作用以及同一变量的自相关性。

不同自变量之间的交互作用:有时,在实验中不仅单因素对指标有影响,而且因素间还会联合起来对指标产生影响,常称这种联合作用为交互作用。处理两个因素间交互作用的一个简单办法是加入这两个自变量的乘积项。本文案例如果加入交互项则为:

0112333412513623

????????y x x x x x x x x x βββββββ=++++++

用表8.2的数据,利用MA TLAB 统计工具箱得到回归系数分别为:27.0727 ,1.1147,

-0.0215 ,-0.1843 ,0.0033 ,-0.0054 ,0.0511 。但它们的置信区间均包含原点,其他指标也不理想,因此,本例中其交互作用并不显著,该模型不如前面两个模型好。

自相关性的诊断和处理:若数据是以时间为序的,称为时间序列数据。在时间序列数据中,同一变量的顺序观测值之间出现的相关现象称为自相关。一旦数据中存在这种自相关序列,如果仍采用普通的回归模型直接处理,将产生不良后果,使预测失去意义。自相关的诊断主要有图示检验法、相关系数法和DW 检验法。图示检验法是通过绘制残差t

e 散点图

观察,如果散布点

1(,),2,3,

,t t e e t n

-=大部分点落在第Ⅰ,Ⅲ象限,表明存在着正的序

列相关;如果大部分点落在第Ⅱ,Ⅳ象限,表明存在着负的序列相关。对DW 检验法可以利用MATLAB 软件编程计算统计量:

122

21

2

2

??2(1),n

t t t n

n

t t t t e e

DW e e

ρ

ρ-=-==≈-=∑∑∑,

然后查阅DW 检验上下界表,以决定模型的自相关状态。

当一个回归模型存在序列相关性时,首先要查明序列相关产生的原因。如果是回归模型选用不当,则应改用适当的回归模型;如果是缺少重要的自变量,则应增加自变量;如果以上方法都不能消除序列相关性,则需要采用差分法、迭代法等处理,更详细内容参见相关概率统计参考文献。

8.2.3 逐步回归方法建模

逐步回归就是一种从众多自变量中有效地选择重要变量的方法。逐步回归的基本思路是,先确定一个包含若干自变量的初始集合,然后每次从集合外的变量中引入一个对因变量影响最大的,再对集合中的变量进行检验,从变得不显著的变量中移出一个影响最小的,依此进行,直到不能引入和移出为止。引入和移出都以给定的显著性水平为标准。

MATLAB 统计工具箱中逐步回归的命令是stepwise ,它提供了一个人机交互式画面,通过此工具可以自由地选择变量进行统计分析。该命令的用法是:

stepwise(X , Y , inmodel , alpha)

其中X 是自变量数据,排成n m ?矩阵(m 为自变量个数,n 为每个变量的数据量),Y 是因变量数据,排成1n ?向量,inmodel 是自变量初始集合的指标,缺省时为全部自变量,alpha 为显著水平,缺省时为0.05。

运行stepwise 命令时产生图形窗口:Stepwise Plot , Stepwise Table , Stepwise History.当鼠标移到图形某个区域时,鼠标点击后产生交互作用。Stepwise Plot 窗口中的虚线表示回归系数的置信区间包含零点,即该回归系数与零无显著差异,一般应将该变量移去;实线则表明该回归系数与零有显著差异,应保留在模型中(蓝色表示该变量已进入模型,红色表示该变量已移出模型)。引入和移出变量还可参考Stepwise History 窗口中剩余标准差RMSE 是否在下降,剩余标准差RMSE 最小的就是最好的模型。Stepwise Table 窗口中列出了一个统计表,包括回归系数及其置信区间,以及模型的统计量剩余标准差RMSE 、相关系数R-square 、F 值、与F 对应的概率。

关于本节案例2,如果引入新的自变量412513623,,x x x x x x x x x === . 也可以采用逐步回归法解决,源程序如下:

A=[3.5 5.3 5.1 5.8 4.2 6.0 6.8 5.5 3.1 7.2 4.5 4.9 8.0 6.5 6.5 3.7 6.2 7.0 4.0 4.5 5.9 5.6 4.8 3.9;9 20 18 33 31 13 25 30 5 47 25 11 23 35 39 21 7 40 35 23 33 27 34 15;6.1 6.4 7.4 6.7 7.5 5.9 6.0 4.0

5.8 8.3 5.0

6.4

7.6 7.0 5.0 4.0 5.5 7.0 6.0 3.5 4.9 4.3

8.0 5.0]';

Y=[33.2 40.3 38.7 46.8 41.4 37.5 39.0 40.7 30.1 52.9 38.2 31.8 43.3 44.1 42.5 33.6 34.2 48.0 38.0 35.9 40.4 36.8 45.2 35.1]'; x1=A(:,1); x2=A(:,2); x3=A(:,3); x4=x1.*x2; x5=x1.*x3; x6=x2.*x3;

X=[A,x4,x5,x6]; stepwise(X,Y)

运行并按上述步骤操作后可以得到本文前面线性回归相同的结论,即不含交互项的模型是最好的。在此只介绍操作过程,其交互界面,只要在MA TLAB 软件上一试便知 8.2.4 多项式回归

多项式回归仍然属于多元线性回归,可以是一元多项式回归或多元多项式回归。 一元多项式回归模型的一般形式为

01m m y x x βββε=++++

用MA TLAB 求解一元多项式回归,除了使用命令polyfit(x,y,m)外,还可以使用如下命令: Polytool(x,y,m,alpha)

输入x,y,m 同命令polyfit ,alpha 是显著性水平(默认0.05),则输出一个交互式画面,画面显示回归曲线及其置信区间,通过图左下方的export 下拉式菜单,还可以输出回归系数估计值及其置信区间、残差等。

下面通过一个用多元多项式回归的实例说明什么时候用多项式回归以及如何通过MATLAB 软件进行处理。

例3 为了了解人口平均预期寿命与人均国内生产总值和体质得分的关系,我们查阅了国家统计局资料,北京体育大学出版社出版的《2000国民体质监测报告》,表8-4是我国大陆31个省市的有关数据。我们希望通过这几组数据考察它们是否具有良好的相关关系,并通过它们的关系从人均国内生产总值(可以看作反映生活水平的一个指标)、体质得分预测其寿命可能的变化范围。体质是指人体的质量,是遗传性和获得性的基础上表现出来的人体形态结构,生理机能和心理因素综合的、相对稳定的特征。体质是人的生命活动和工作能力的物质基础。它在形成、发展和消亡过程中,具有明显的个体差异和阶段性。中国体育科学学会体质研究会研究表明,体质应包括身体形态发育水平、生理功能水平、身体素质和运动能力发展水平、心理发育水平和适应能力等五个方面。目前,体质的综合评价主要是形态、机能和身体素质三类指标按一定的权重进行换算而得。

表8-4 31个省市人口预期寿命与人均国内生产总值和体质得分数据

序号

预期寿命

体质得分

人均产值

序号

预期寿命

体质得分

人均产值

序号

预期寿命

体质得分

人均产值

1 71.54 66.165 12857 1

2 65.49 56.775 8744 2

3 69.87 64.305 17717 2 73.92 71.25 24495 13 68.95 66.01 1149

4 24 67.41 60.48

5 15205 3 73.27 70.135 24250 14 73.34 67.97 20461 25 78.14

70.29

70622

4 71.20 65.12

5 10060 15 65.9

6 62.9 5382 26 76.10 69.345 47319 5 73.91 69.99 29931 16 72.3

7 66.1 19070 27 74.91 68.415 40643 6 72.54 65.765 18243 17 70.07

64.51

10935 28 72.91 66.495 11781 7 70.66 67.29 10763 18 72.55 68.385 22007 29 70.17 65.765 10658 8 71.85 67.71 9907 19 71.65 66.205

13594 30 66.03 63.28 11587 9 71.08 66.525 13255 20 71.73, 65.77

11474 31 64.37 62.84 9725 10 71.29,

67.13 9088

21

73.10 67.065 14335 11 74.70

69 .505

33772 22

67.47 63.605

7898

模型的建立和求解 作表8-4数据12(,),(,)x y x y 的散点图如图8.3

图8.3 预期寿命与人均国内生产总值和体质得分的散点图

从图8.3可以看出人口预期寿命y 与体质得分2x 有较好的线性关系,y 与人均国内生产总值1x 的关系难以确定,我们建立二次函数的回归模型。

一般的多元二项式回归模型可表为 0111,m m jk j k j k m

y x x x x ββββε≤≤=++

++

+∑

MATLAB 统计工具箱提供了一个很方便的多元二项式回归命令:

Rstool(x,y, 'model',alpha)

输入x 为自变量(n ×m 矩阵),y 为因变量(n 维向量),alpha 为显著水平,model 从下列4个模型中选择一个:

linear (只包含线性项)

purequadratic (包含线性项和纯二次项) interaction (包含线性项和纯交互项) quadratic (包含线性项和完全二次项)

输出一个交互式画面,对例3,编程如下:

y=[71.54 73.92 73.27 71.20 73.91 72.54 70.66 71.85 71.08 71.29,74.70 65.49 68.95 73.34 65.96 72.37 70.07 72.55 71.65 71.73,73.10 67.47 69.87 67.41 78.14 76.10 74.91 72.91 70.17 66.03 64.37];

x1=[12857 24495 24250 10060 29931 18243 10763 9907 13255 9088 33772 8744 11494 20461 5382 19070 10935 22007 13594 11474 14335 7898 17717 15205 70622 47319 40643 11781 10658 11587 9725];

x2=[66.165 71.25 70.135 65.125 69.99 65.765 67.29 67.71 66.525 67.13,69.505 56.775 66.01 67.97 62.9 66.1 64.51 68.385 66.205 65.77,67.065 63.605 64.305 60.485 70.29 69.345 68.415 66.495 65.765 63.28 62.84]; x=[x1',x2'];

rstool(x,y','purequadratic')

得到一个如图8.4的交互式画面

图8.4 预期寿命与人均国内生产总值和体质得分的一个交互式画面

左边一幅图形是2x 固定时的曲线1()y x 及其置信区间,右边一幅图形是1x 固定时的曲线

2()y x 及其置信区间。移动鼠标可改变1x ,2x 的值,同时图左边给出y 的预测值及其置信

区间。如输入1x =128757,2x =66.165,则y =70.6948,其置信区间70.6948±1.1079。 图的左下方有两个下拉式菜单,上面的菜单Export 用于输出数据(包括:回归系数parameters,残差residuals,剩余标准差RMSE 等), 在MA TLAB 工作空间中得到有关数据。通过下面的菜单在上述4个模型中变更选择,最后确定RMSE 值较小的模型。例3则是包含线性项和完全二次项(quadratic )的模型最佳,即

22

011223124152y x x x x x x ββββββε=++++++

剩余标准差为1.2622,因此,所得回归模型为:

5922

121212195.360.0045 5.5753 6.733810 3.3529100.055556y x x x x x x --=+--?+?+

利用此模型我们可以根据国内生产总值及体质得分,预测寿命

8.3 非线性回归分析

8.3.1 非线性最小二乘拟合

线性最小二乘拟合与线性回归中的“线性”并非指y 与x 的关系,而是指y 是系数

01,ββ或01(,,,)m ββββ=的线性函数。拟合如201y x ββ=+的函数仍然是最小二乘拟

合;如果拟合如10x

y e ββ=的曲线,y 对01,ββ是非线性的,但取对数后ln y 对系数01

,ββ是线性的,属于可化为线性回归的类型。下面讨论非线性拟合的情形。

非线性最小二乘拟合问题的提法是:已知模型

101(,),(,,),(,,,)m k y f x x x x βββββ===,

其中f 对β是非线性的,为了估计参数β,收集n 个独立观测数据

1(,),(,

)i i i i im x y x x x =(1,,),i n n m =>。记拟合误差()(,)i i i y f x εββ=-,求β使误

差的平方和

221

1

()()[(,)]n n

i i i i i Q y f x βεββ====-∑∑

最小。

作为无约束非线性规划的特例,解非线性最小二乘拟合可用MA TLAB 优化工具箱命令lsqnonlin 和lsqcurvefit 。 8.3.2 非线性回归模型

非线性回归模型记作

101(,),(,

,),(,,,)m k y f x x x x βεββββ=+==

其中f 对回归系数β是非线性的,2

~(0,)N εσ。求得回归系数β的最小二乘估计。 MATLAB 统计工具箱中非线性回归的命令是: [b,R,J]=nlinfit(x,y, 'model',bo)

输入x 是自变量数据矩阵,每列一个向量;y 是因变量数据向量;model 是模型的函数名(M 文件),形式为(,)y f b x =,b 为待估系数β;b0是回归系数β的初值。输出b 是β的估计值,R 是残差,J 是用于估计预测误差的Jacobi 矩阵。这个命令是依据高斯—牛顿法求解的。

将上面的输出作为命令 Bi=nlparci(b,R,J) 的输入,得到的bi 是回归系数β的置信区间。用命令

nlintool(x,y, 'model',b)

可以得到一个交互式画面,其内容和用法与多项式回归的Polytool 类似。 例4 酶促反应速度与底物浓度

酶促反应动力学简称酶动力学,主要研究酶促反应速度与底物(即反应物)浓度以及其它因素的关系。在底物浓度很低时酶促反应是一级反应;当底物浓度处于中间范围时,是混合级反应;当底物浓度增加时,向零级反应过渡。某生化系学生为了研究嘌呤霉素在某项酶促反应中对反应速度与底物浓度之间关系的影响,设计了两个实验,一个实验中所使用的酶

是经过嘌呤霉素处理的,而另一个实验所用的酶是未经嘌呤霉素处理的。所得实验数据见表8-5。试根据问题的背景和这些数据建立一个合适的数学模型,来反映这项酶促反应的速度与底物浓度以及嘌呤霉素处理与否之间的关系。

表8-5 嘌呤霉素实验中的反应速度与底物浓度数据

底物浓度(ppm )

0.02 0.06

0.11

0.22 0.56 1.10

反应

速度 未处理 67 51 84 86 98 115 131 124 144 158 160 / 处理 76 47 97

107

123

139 159

152 191

201 207 200

分析与假设

记酶促反应的速度为y ,底物浓度为x ,二者之间的关系写作(,)y f x β=,其中β为参数(β可为一向量)。由酶促反应的基本性质可知,当底物浓度很低时酶促反应是一级反应,此时反应速度大致与底物浓度成正比;而当底物浓度很大,渐近饱和时,反应速度将趋于一个固定值(即零级反应)。下面的两个简单模型具有这种性质:

Michaelis-Menten 模型

(,)y f x x

x

12β=β=

β+

指数增长模型

(,)(1)x y f x e 2-β1=β=β-

非线性模型的求解

首先作出给出的经过嘌呤霉素处理和未经处理的反应速度与底物浓度的散点图,可以看出,上述两个模型与实际数据得到的散点图是大致符合的。

我们将主要对前一模型即Michaelis-Menten 模型进行详细的分析。首先对经过嘌呤酶素处理的实验数据进行分析,在此基础上,再来讨论是否有更一般的模型来统一刻画处理前后的数据,进而揭示其中的联系。

我们用非线性回归的方法直接估计模型的参数12ββ,,模型的求解可利用MA TLAB 统计工具箱中的命令进行,使用格式为:

[beta,R,J]=nlinfit(x,y,'model',beta0)

其中输入x 为自变量数据矩阵,每列一个变量;y 为因变量数据向量;model 为模型的M 文件名,M 函数形式为y=f (beta,x),beta 为待估计参数;beta0为给定的参数初值。输出beta 为参数估计值,R 为残差,J 为用于估计预测误差的Jacobi 矩阵。参数beta 的置信区间用命令 nlparci(beta,R,J)得到。

首先建立函数M 文件huaxue.m ,非线性模型参数估计的源程序如下: x=[0.02 0.02 0.06 0.06 0.11 0.11 0.22 0.22 0.56 0.56 1.10 1.10]; y=[76 47 97 107 123 139 159 152 191 201 207 200]; beta0=[195.8027 0.04841];

[beta,R,J]=nlinfit(x,y,'huaxue',beta0); betaci=nlparci(beta,R,J);

beta,betaci

yy=beta(1)*x./(beta(2)+x); plot(x,y,'o',x,yy,'m+'),pause nlintool(x,y,'huaxue',beta) 得到的数值结果见表8-6。

Nlintool 用于给出一个交互式画面,可以得到因变量y 的预测值和预测区间,左下方的Export 可向工作区传送剩余标准差等数据。

表8-6 模型参数的估计结果

参 数

参 数 估 计 值 置 信 区 间 1β

212.6818 [197.2028 228.1608] 2β

0.0641

[0.0457 0.0826]

从上面的结果可以知道,对经过嘌呤霉素处理的实验数据,在用Michaelis-Menten 模型进行回归分析时,最终反应速度为1β=212.6818,反应的半速度点(达到最终反应速度的一半时的底物浓度x 值)恰为2β=0.06412。

混合反应模型

由酶动力学知识我们知道,酶促反应的浓度依赖于底物浓度,并且可以假定,嘌呤霉素的处理会影响最终反应速度参数1β,而基本上不影响半速度参数2β.表8-5的数据也印证了这种看法。Michaelis-Menten 模型的形式可以分别描述经过嘌呤霉素处理和未处理的反应速度与底物浓度的关系(两个模型的参数β会不同),为了在同一个模型中考虑嘌呤霉素处理的影响,我们采用对未经嘌呤霉素处理的模型附加增量的方法,考察如下的混合反应模型:

11212221

(,)))y f x x x x x +(β=β=

(βγ+γ+

其中自变量

1

x 为底物浓度, 2

x 为一示性变量(0-1变量), 用来表示是否经嘌呤霉素处理,

2

x =1表示经过处理, 2

x =0表示未经处理;参数1

β是未处理的反应的最终反应速度,1

γ是经

处理后最终反应速度的增长值, 2β是未经处理的反应的半速度点, 2γ是经处理后反应的半速度点的增长值。

混合模型的求解和分析

为了给出初始迭代值,从实验数据我们注意到,未经处理的反应速度的最大实验值为

160,经过处理的最大实验值为207,于是可取参数初值00

11170,60βγ==;又从数据可大

致估计未经处理的半速度点约为0.05,经过处理的半速度点约为0.06,我们取

00

220.05,0.01βγ==。

建立函数M 文件model.m function yhat=model(beta0,x) a=beta0(1); b=beta0(2); c=beta0(3); d=beta0(4); x1=x(:,1); x2=x(:,2);

yhat=((a+c*x2).*x1)./(b+d*x2+x1); 建立M 文件meicu.m

x=[0.02 0.02 0.06 0.06 0.11 0.11 0.22 0.22 0.56 0.56 1.10 1.10 0.02 0.02 0.06 0.06 0.11 0.11 0.22 0.22 0.56 0.56 1.10 1.10; 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0]';

y=[76 47 97 107 123 139 159 152 191 201 207 200 67 51 84 86 98 115 131 124 144 158 160 170]';

beta0=[170 0.05 60 0.01];

[beta,R,J]=nlinfit(x,y,'model',beta0); betaci=nlparci(beta,R,J); beta,betaci a=beta(1); b=beta(2); c=beta(3); d=beta(4); x1=x(:,1); x2=x(:,2);

yy=((a+c*x2).*x1)./(b+d*x2+x1);

%yy=((beta(1,:)+beta(3,:)*x(2)).*x(1))./(beta(2,:)+beta(4,:)*x(2)+x(1)); plot(x1,y,'o',x1,yy,'+'),pause nlintool(x,y,'model',beta) 运行后即得如下表8-7结果

表8-7 混合模型参数的估计结果

参数

参数估计值 置信区间

165.3259 [152.1100 178.5418] 2β

0.0524 [0.0347 0.0700] 1γ 47.3574 [28.510 66.6637] 2γ

0.0118

[-0.0126 0.0361]

从表8-7可以发现,2γ的置信区间包含零点,这表明参数2γ对因变量y 的影响并不显著,即:嘌呤霉素的作用不影响半速度参数。因此,可以考虑下面的模型:

21

1

()(,)x x y f x x 112β+γ=β=

β+

可以采用类似方法计算和分析,所得结果统计指标差不多,不过显然最后一个模型具有更为简洁的形式。

(1)用Excel作一元线性回归分析

实验四(1)用Excel作一元线性回归分析 实验名称:回归分析 实验目的:学会应用软件实验一元线性回归,多元线性回归和非线性回归模型的求解及应用模型解决相应地理问题。 1 利用Excel进行一元线性回归分析 第一步,录入数据 以连续10年最大积雪深度和灌溉面积关系数据为例予以说明。录入结果见下图(图1)。 图1 第二步,作散点图 如图2所示,选中数据(包括自变量和因变量),点击“图表向导”图标;或者在 “插入”菜单中打开“图表(H)”。图表向导的图标为。选中数据后,数据变为蓝色(图2)(office2003)。插入-图表(office2007)

图2 点击“图表向导”以后,弹出如下对话框(图3): 图3 在左边一栏中选中“XY散点图”,点击“完成”按钮,立即出现散点图的原始形式(图4):

图4 第三步,回归 观察散点图,判断点列分布是否具有线性趋势。只有当数据具有线性分布特征时,才能采用线性回归分析方法。从图中可以看出,本例数据具有线性分布趋势,可以进行线性回归。回归的步骤如下: ⑴ 首先,打开“工具”下拉菜单,可见数 据分析选项(见图5) (office2003)。数据-数据分析(office2007) : 图5 用鼠标双击“数据分析”选项,弹出“数据分析”对话框(图6):

图6 ⑵然后,选择“回归”,确定,弹出如下选项表(图7): 图7 进行如下选择:X、Y值的输入区域(B1:B11,C1:C11),标志,置信度(95%),新工作表组,残差,线性拟合图(图8-1)。 或者:X、Y值的输入区域(B2:B11,C2:C11),置信度(95%),新工作表组,残差,线性拟合图(图8-2)。 注意:选中数据“标志”和不选“标志”,X、Y值的输入区域是不一样的:前者包括数据标志: 最大积雪深度x(米)灌溉面积y(千亩) 后者不包括。这一点务请注意(图8)。

一元线性回归分析实验报告

一元线性回归在公司加班 制度中的应用 院(系): 专业班级: 学号姓名: 指导老师: 成 绩: 完成时间 :

一元线性回归在公司加班制度中的应用 一、实验目的 掌握一元线性回归分析的基本思想与操作,可以读懂分析结果,并写出回归方程,对回归方程进行方差分析、显著性检验等的各种统计检验 二、实验环境 SPSS21、0 windows10、0 三、实验题目 一家保险公司十分关心其总公司营业部加班的程度,决定认真调查一下现状。经10周时间,收集了每周加班数据与签发的新保单数目,x 为每周签发的新保单数目,y 为每周加班时间(小时),数据如表所示 y 3、5 1、0 4、0 2、0 1、0 3、0 4、5 1、5 3、0 5、0 1. 画散点图。 2. x 与y 之间大致呈线性关系? 3. 用最小二乘法估计求出回归方程。 4. 求出回归标准误差σ∧ 。 5. 给出0 β∧ 与1 β∧ 的置信度95%的区间估计。 6. 计算x 与y 的决定系数。 7. 对回归方程作方差分析。 8. 作回归系数1 β∧ 的显著性检验。 9. 作回归系数的显著性检验。 10. 对回归方程做残差图并作相应的分析。 11. 该公司预测下一周签发新保单01000x =张,需要的加班时间就是多少?

12.给出0y的置信度为95%的精确预测区间。 13.给出 () E y的置信度为95%的区间估计。 四、实验过程及分析 1、画散点图 如图就是以每周加班时间为纵坐标,每周签发的新保单为横坐标绘制的散点图,从图中可以瞧出,数据均匀分布在对角线的两侧,说明x与y之间线性关系良好。 2、最小二乘估计求回归方程 系数a 模型非标准化系数标准系数t Sig、 B 的 95、0% 置信区间 B 标准误差试用版下限上限

基于SPSS多元线性回归分析的案例

农民收入影响因素的多元回归分析 自改革开放以来,虽然中国经济平均增长速度为9.5 % ,但二元经济结构给经济发展带来的问题仍然很突出。农村人口占了中国总人口的70 %多,农业产业结构不合理,经济不发达,以及农民收入增长缓慢等问题势必成为我国经济持续稳定增长的障碍。正确有效地解决好“三农”问题是中国经济走出困境,实现长期稳定增长的关键。其中,农民收入增长是核心,也是解决“三农”问题的关键。本文力图应用适当的多元线性回归模型,对有关农民收入的历史数据和现状进行分析,寻找其根源,探讨影响农民收入的主要因素,并在此基础上对如何增加农民收入提出相应的政策建议。 一、回归模型的建立 (1) 数据的收集 根据实际的调查分析,我们在影响农民收入因素中引入3个解释变量。即: X财政用于农业的支出的比重, X-乡村从业人员占农村人口的比重, X -2-34 农作物播种面积 y X2 X3 X4 乡村从业人员78年可比财政用于农业农作物播年份占农村人口的价的支出 的比重种面积比重 1989 196.76 9.42 49.23 146553.9 1990 220.53 9.98 49.93 148362.3 1991 223.25 10.26 50.92 149585.8 1992 233.19 10.05 51.53 149007.1 1993 265.67 9.49 51.86 147740.7 1994 335.16 9.2 52.12 148240.6 1995 411.29 8.43 52.41 149879.3

1996 460.68 8.82 53.23 152380.6 1997 477.96 8.3 54.93 153969.2 1998 474.02 10.69 55.84 155705.7 1999 466.8 8.23 57.16 156372.8 2000 466.16 7.75 59.33 156299.9 2001 469.8 7.71 60.62 155707.9 2002 468.95 7.17 62.02 154635.5 2003 476.24 7.12 63.72 152415 2004 499.39 9.67 65.64 153552.6 2005 521.2 7.22 67.59 155487.7 (1) 回归模型的构建 Y=ββX+βX+βX+u i1+223344i 二、回归模型的分析 (1) 多重共线性检验 a系数 非标准化系数标准系数共线性统计量模型 B 标准误差试用版 t Sig. 容差 VIF 1 (常量) -2983.479 803.141 -3.715 .003 X2 -14.221 15.007 -.141 -.948 .361 .579 1.726 X3 5.201 3.760 .258 1.383 .190 .368 2.717 X4 .021 .006 .614 3.677 .003 .459 2.177 a. 因变量: y 表1 多重共线性是指解释变量之间存在相关关系,判断解释变量之间的多重共线性一般可看方差膨胀因子VIF和容忍度这两个指标,如果解释变量之间存在多重共线性,一般采用逐步剔除VIF最大的解释变量来消除解释变量之间多重共线性的问

(完整版)多元回归分析中变量的选择——SPSS的应用毕业设计

毕业论文 题目多元回归分析中的变量选取 ——SPSS的应用 院(系)数学与统计学院 专业年级 2010级统计学 指导教师职称副教授

多元回归分析中的变量选取——SPSS的应用 殷婷 摘要 本文不仅对于复杂的统计计算通过常用的计算机应用软件SPSS来实现,同时通过对两组数据的实证分析,来研究统计学中多元回归分析中的变量选取,让大家对统计中的多元回归数据的选取和操作方法有更深层次的了解。一组数据是对于淘宝交易额的未来发展趋势的研究,一组数据时对于我国财政收入的研究。本文通过两个实证从不同程度上对数据选取的研究运用通俗的语言和浅显的描述将SPSS在多元回归分析中的统计分析方法呈现在大家面前,让大家对多元回归分析以及SPSS软件都可以有更深一步的了解。通过SPSS软件对数据进行分析,对数据进行处理的方法进行总结,找出SPSS对于数据处理和分析的优缺点,最后得在对变量的选取和软件的操作提出建议。 关键词:统计学 SPSS 变量的选取多元回归分析 Abstract

In this paper, not only for complex statistical calculations done by the commonly used computer application software of SPSS, through the empirical analysis of the two groups of data at the same time, to study the statistics of the variables in the multivariate regression analysis, let everybody to select multiple regression in statistical data and operation methods this paper, through two empirical to select data from different extent research using a common language and plain the SPSS statistical analysis method in multiple regression analysis of present in front of everyone, let everyone to multiple regression analysis and SPSS software can of the selection of variables and software. Keywords: Statistical SPSS The selection of variables multiple regression analysis 目录 摘要 (1) 英文摘要 (1) 引言 (3) 第一章回归分析 (3) 1.1自变量的选择 (4) 1.2国内外研究现状 (5) 第二章案例分析一:淘宝交易额的研究 (6) 2.1数据的来源及变量的选取 (6) 2.2相关分析 (7) 2.2.1散点图 (7)

一元线性回归分析

第八章 第二节 一元线性回归分析 ●一、什么是回归分析? 测定变量之间数量变化关系的数学方法,称为回归分析。只有一个因变量和一个自变量的线性回归模型,叫一元线性回归模型。由于总体回归函数实际上是未知的,一元线性回归模型称为“样本回归直线”。其近似的函数关系为: t u x y ++=211ββ 其中:β1、β2是待定系数,也叫回归系数。u t 又 称随机干扰项,(或随机误差项)它是一个特殊的随机变量,反映未列入方程式的其他各种因素对y 的影响,随机误差项u t 是无法直接观测的。随机误差项u t 的假定条件如下: ●二、标准假定(高斯假定): (1)误差项的期望值为0,即: )(t u E (2)误差项的方差为常数,即:2 2)()(σ==t t u E u Var ; (3)误差项之间无系列相关关系,其协方差为0, 即:0)()(==s t s t u u E u u Cov ; (4)自变量是给定的变量,与随机误差项线性无关; (5)随机误差项服从正态分布。 ※关于非标准条件下的分析方法参照《计量经济学》。

●三、回归系数β1、β2的估计值 由于假定的第一条,故:x y t 21ββ+=。理论上令: ∑∑=--=-0)(0)(2 2 12 x y y y t ββ 对β1、β2求偏导数,经整理得: ? ??? ?-=--=∑∑∑∑∑x y x x n y x xy n 212 22)(βββ 以相关分析中例题为例: ▲案例1:某地区对15户居民家庭人均可支配收入与某类商品消费支出的调查数据如下:(百元/月) 合计:ΣX=1516,ΣY=423,ΣXY=44632, ΣX 2=163654,ΣY 2 =12311 。代入公式: ??? ??? ? =-??-?==?-=1802 .0151616365415423151644632159872.91515161802.015423221ββ 回归方程为: x y t 1802.09872.9+= ◎ 9.9872和0.1802的经济含义?

spss多元回归分析报告案例

企业管理 对居民消费率影响因素的探究 ---以湖北省为例 改革开放以来,我国经济始终保持着高速增长的趋势,三十多年间综合国力得到显著增强,但我国居民消费率一直偏低,甚至一直有下降的趋势。居民消费率的偏低必然会导致我国内需的不足,进而会影响我国经济的长期健康发展。 本模型以湖北省1995年-2010年数据为例,探究各因素对居民消费率的影响及多元关系。(注:计算我国居民的消费率,用居民的人均消费除以人均GDP,得到居民的消费率)。通常来说,影响居民消费率的因素是多方面的,如:居民总 收入,人均GDP,人口结构状况1(儿童抚养系数,老年抚养系数),居民消费价格指数增长率等因素。 1.人口年龄结构一种比较精准的描述是:儿童抚养系数(0-14岁人口与 15-64岁人口的比值)、老年抚养系数(65岁及以上人口与15-64岁人口的比值〉或总抚养系数(儿童和老年抚养系数之和)。0-14岁人口比例与65岁及以上人口比例可由《湖北省统计年鉴》查得。

一、计量经济模型分析 (一)、数据搜集 根据以上分析,本模型在影响居民消费率因素中引入6个解释变量。X1:居民总收入(亿元),X2:人口增长率(‰),X3:居民消费价格指数增长率,X4:少儿抚养系数,X5:老年抚养系数,X6:居民消费占收入比重(%)。 Y:消费率(%)X1:总收入 (亿元) X2:人口增 长率(‰) X3:居民消 费价格指 数增长率 X4:少儿抚 养系数 X5:老年抚 养系数 X6:居民消 费比重(%) 1995 1997 200039 2001 2002 2003 2004 2005 2006 2007 2008 2009

案例分析(一元线性回归模型)

案例分析报告(2014——2015学年第一学期) 课程名称:预测与决策 专业班级:电子商务1202 学号:2204120202 学生姓名:陈维维 2014 年11月

案例分析(一元线性回归模型) 我国城镇居民家庭人均消费支出预测 一、研究目的与要求 居民消费在社会经济的持续发展中有着重要的作用,居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。从理论角度讲,消费需求的具体内容主要体现在消费结构上,要增加居民消费,就要从研究居民消费结构入手,只有了解居民消费结构变化的趋势和规律,掌握消费需求的热点和发展方向,才能为消费者提供良好的政策环境,引导消费者合理扩大消费,才能促进产业结构调整与消费结构优化升级相协调,才能推动国民经济平稳、健康发展。例如,2008年全国城镇居民家庭平均每人每年消费支出为11242.85元,最低的青海省仅为人均8192.56元,最高的上海市达人均19397.89元,上海是黑龙江的2.37倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我研究的对象是各地区居民消费的差异。居民消费可分为城镇居民消费和农村居民消费,由于各地区的城镇与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城镇居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。 所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。 因为研究的目的是各地区城镇居民消费的差异,并不是城镇居民消费在不同时间的变动,所以应选择同一时期各地区城镇居民的消费支出来建立模型。因此建立的是2008年截面数据模型。影响各地区城镇居民人均消费支

一元线性回归总结分析

第十一章 一元线性回归 本章主要介绍数值型自变量和数值型因变量之间关系的分析方法,这就是相关与回归分析。如果研究的是两个变量之间的关系,称为简单相关与简单回归分析;如果研究的是两个以上变量之间的关系,称为多元相关与多元回归分析。本章主要讨论简单线性相关和简单线性回归的基本方法。 本章知识结构如下: 主要知识点: 变量间关系的度量 变量之间的关系可分为两种类型,即函数关系和相关关系。 变量之间存在的不确定的数量关系,称为相关关系。 相关关系的特点:一个变量的取值不能由另一个变量唯一确定,当变量y 的取值可能有几个。对这种关系不确定的变量显然不能用函数关系来描述,但也不是无规律可循。相关与回归分析正是描述与探索这类变量之间关系及其规律的统计方法。 判断相关性的方法: 方法一:散点图法 1、判断变量间的相关性 2、相关关系的显著性检验 r 的显著性检验 步骤:○1提出假设○2计算检验的统计量t ○3进行决策(即比较t 与 t 2 α ) 3、一元线性回归 4、回归方程拟合优度的判断 主要方法 5、回归方程的显著性检验 6、利用回归方程进行预测 7、残差分析 残差、残差图及标准化残差 一 元 线 性 回 归 主要方法 a)散点图法 b)相关系数法 方法及步骤 1、建立模型εββ++=x y 11 2、写出回归方程()x y E 110ββ+= 3、利用最小二乘法对参数进行估计 a) 判定系数法R 2 b) 估计标准误差S e 主要方法 a) 线性关系的检验——模型的检验,即F 检验 b) 回归系数的检验,即t 检验 类型 a) 点估计 b) 区间估计

散点图是描述变量之间关系的一种直观方法,从中可以大体上看出变量之间的关系形态及关系强度。 方法二:相关系数法 () () ∑∑∑∑∑∑∑-*--= 2 2 2 2 y n x n y x xy n r y x 利用相关系数可以准确度量两个变量之间的关系强度。 利用Excel 软件计算相关系数: “工具” → “数据分析”→“相关系数” → “选入数据” → “确定”即可。 相关关系的显著性检验 考察样本相关系数的可靠性,也就是进行显著性检验。 r 的显著性检验 1、提出假设 0:;0:10 ≠=ρρH H 2、计算检验统计量 ()2~122 ---=n t n r t r 3、进行决策 根据给定的显著性水平α和自由度2-=n df 查t 分布表,得出 ()22 -n t α的临界值。若t t α >,则拒绝原假设H 0,表明总体的两个变 量之间存在显著的线性关系。 一元线性回归 回归模型:εββ++=x y 110 )1,0(=i i β 称为模型的参数。 ε称为误差项,反映了除x 与y 之间的线性关系之外的随机因素 对y 的影响。 一元线性回归方程的形式: ()x y E 110ββ+= β 1 表示当自变量每变化一个单位时,因变量变化β1 个单位。 β 不赋予任何意义。 参数的最小二乘估计: 用Excel 软件进行操作: “工具” → “数据分析” → “回归” → “选入数据” → “确

用Excel做线性回归分析报告

用Excel进行一元线性回归分析 Excel功能强大,利用它的分析工具和函数,可以进行各种试验数据的多元线性回归分析。本文就从最简单的一元线性回归入手. 在数据分析中,对于成对成组数据的拟合是经常遇到的,涉及到的任务有线性描述,趋势预测和残差分析等等。很多专业读者遇见此类问题时往往寻求专业软件,比如在化工中经常用到的Origin和数学中常见的MATLAB等等。它们虽很专业,但其实使用Excel就完全够用了。我们已经知道在Excel自带的数据库中已有线性拟合工具,但是它还稍显单薄,今天我们来尝试使用较为专业的拟合工具来对此类数据进行处理。 文章使用的是2000版的软件,我在其中的一些步骤也添加了2007版的注解. 1 利用Excel2000进行一元线性回归分析 首先录入数据. 以连续10年最大积雪深度和灌溉面积关系数据为例予以说明。录入结果见下图(图1)。 图1 第二步,作散点图 如图2所示,选中数据(包括自变量和因变量),点击“图表向导”图标;或者在“插入”菜单中打开“图表(H)(excel2007)”。图表向导的图标为。选中数据后,数据变为蓝色(图2)。

图2 点击“图表向导”以后,弹出如下对话框(图3): 图3 在左边一栏中选中“XY散点图”,点击“完成”按钮,立即出现散点图的原始形式(图4):

灌溉面积y(千亩) 01020304050600 10 20 30 灌溉面积y(千亩) 图4 第三步,回归 观察散点图,判断点列分布是否具有线性趋势。只有当数据具有线性分布特征时,才能采用线性回归分析方法。从图中可以看出,本例数据具有线性分布趋势,可以进行线性回归。回归的步骤如下: ⑴ 首先,打开“工具”下拉菜单,可见数据分析选项(见图5)(2007为”数据”右端的”数据分析”): 图5 用鼠标双击“数据分析”选项,弹出“数据分析”对话框(图6):

数学建模-回归分析-多元回归分析

1、 多元线性回归在回归分析中,如果有两个或两个以上的自变量,就称为 多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。 在实际经济问题中,一个变量往往受到多个变量的影响。例如,家庭消费支出,除了受家庭可支配收入的影响外,还受诸如家庭所有的财富、物价水平、金融机构存款利息等多种因素的影响,表现在线性回归模型中的解释变量有多个。这样的模型被称为多元线性回归模型。(multivariable linear regression model ) 多元线性回归模型的一般形式为: 其中k 为解释变量的数目,j β (j=1,2,…,k)称为回归系数(regression coefficient)。上式也被称为总体回归函数的随机表达式。它的非随机表达式为: j β也被称为偏回归系数(partial regression coefficient)。 2、 多元线性回归计算模型 多元性回归模型的参数估计,同一元线性回归方程一样,也是在要求误差平方和(Σe)为最小的前提下,用最小二乘法或最大似然估计法求解参数。 设( 11 x , 12 x ,…, 1p x , 1 y ),…,( 1 n x , 2 n x ,…, np x , n y )是一个样本, 用最大似然估计法估计参数: 达 到最小。

把(4)式化简可得: 引入矩阵: 方程组(5)可以化简得: 可得最大似然估计值:

3、Matlab 多元线性回归的实现 多元线性回归在Matlab 中主要实现方法如下: (1)b=regress(Y, X ) 确定回归系数的点估计值 其中 (2)[b,bint,r,rint,stats]=regress(Y,X,alpha)求回归系数的点估计和区间估计、并检 验回归模型 ①bint 表示回归系数的区间估计. ②r 表示残差 ③rint 表示置信区间 ④stats 表示用于检验回归模型的统计量,有三个数值:相关系数r2、F 值、与F 对应的 概率p 说明:相关系数r2越接近1,说明回归方程越显著;F>F1-alpha(p,n-p-1) 时拒绝H0,F 越大,说明回归方程越显著;与F 对应的概率p<α 时拒绝H0,回归模型成立。 ⑤alpha 表示显著性水平(缺省时为0.05) (3)rcoplot(r,rint) 画出残差及其置信区间

SPSS多元线性回归分析报告实例操作步骤

SPSS 统计分析 多元线性回归分析方法操作与分析 实验目的: 引入1998~2008年上海市城市人口密度、城市居民人均可支配收入、五年以上平均年贷款利率和房屋空置率作为变量,来研究上海房价的变动因素。 实验变量: 以年份、商品房平均售价(元/平方米)、上海市城市人口密度(人/平方公里)、城市居民人均可支配收入(元)、五年以上平均年贷款利率(%)和房屋空置率(%)作为变量。 实验方法:多元线性回归分析法 软件:spss19.0 操作过程: 第一步:导入Excel数据文件 1.open data document——open data——open;

2. Opening excel data source——OK. 第二步: 1.在最上面菜单里面选中Analyze——Regression——Linear ,Dependent(因变量)选择商品房平均售价,Independents(自变量)选择城市人口密度、城市居民人均可支配收入、五年以上平均年贷款利率、房屋空置率;Method选择Stepwise. 进入如下界面: 2.点击右侧Statistics,勾选Regression Coefficients(回归系数)选项组中的Estimates;勾选Residuals(残差)选项组中的Durbin-Watson、

Casewise diagnostics默认;接着选择Model fit、Collinearity diagnotics;点击Continue. 3.点击右侧Plots,选择*ZPRED(标准化预测值)作为纵轴变量,选择DEPENDNT(因变量)作为横轴变量;勾选选项组中的Standardized Residual Plots(标准化残差图)中的Histogram、Normal probability plot;点击Continue.

一元线性回归分析的结果解释

一元线性回归分析的结果解释 1.基本描述性统计量 分析:上表是描述性统计量的结果,显示了变量y和x的均数(Mean)、标准差(Std. Deviation)和例数(N)。 2.相关系数 分析:上表是相关系数的结果。从表中可以看出,Pearson相关系数为0.749,单尾显著性检验的概率p值为0.003,小于0.05,所以体重和肺活量之间具有较强的相关性。 3.引入或剔除变量表

分析:上表显示回归分析的方法以及变量被剔除或引入的信息。表中显示回归方法是用强迫引入法引入变量x的。对于一元线性回归问题,由于只有一个自变量,所以此表意义不大。 4.模型摘要 分析:上表是模型摘要。表中显示两变量的相关系数(R)为0.749,判定系数(R Square)为0.562,调整判定系数(Adjusted R Square)为0.518,估计值的标准误差(Std. Error of the Estimate)为0.28775。 5.方差分析表 分析:上表是回归分析的方差分析表(ANOVA)。从表中可以看出,回归的均方(Regression Mean Square)为1.061,剩余的均方(Residual Mean Square)为0.083,F检验统计量的观察值为12.817,相应的概率p 值为0.005,小于0.05,可以认为变量x和y之间存在线性关系。

6.回归系数 分析:上表给出线性回归方程中的参数(Coefficients)和常数项(Constant)的估计值,其中常数项系数为0(注:若精确到小数点后6位,那么应该是0.000413),回归系数为0.059,线性回归参数的标准误差(Std. Error)为0.016,标准化回归系数(Beta)为0.749,回归系数T检验的t统计量观察值为3.580,T检验的概率p值为0.005,小于0.05,所以可以认为回归系数有显著意义。由此可得线性回归方程为: y=0.000413+0.059x 7.回归诊断 分析:上表是对全部观察单位进行回归诊断(Casewise Diagnostics-all cases)的结果显示。从表中可以看出每一例的标准

基于多元线性回归模型的影响居民消费水平相关因素分析

计量分析软件课程论文 论文题目:基于多元线性回归模型的影响居民消费 水平相关因素分析 姓名:学号: 学院:专业: 联系电话: 年月日 基于多元线性回归模型的影响居民消费 水平相关因素分析 一、研究背景 中国GDP总量超越日本,成为仅次于美国的第二大经济体,但我国人均GDP 依然很低,全球排名87位,这很大程度上制约了居民消费水平的提高。到2020年实现全面建成小康社会的目标,十八大明确提出提高居民人均收入和人均消费水平,共享改革开放成果。我国居民消费水平在改革开放后有了很大提高,但消费水平依然很低,消费量占GDP比重依然很小。为此,本文旨在根据全国经济宏观政策、国内生产总值、职工平均工资指数、城镇居民消费价格指数、普通中学及高等学校在校生数、卫生机构数和基本设施铁路公路货运量等因素的变化情况,来分析如何提高居民消费水平,以判断是否能使居民消费水平有很大的提高。本文通过对1978-2010年影响居民消费水平因素数据的分析,找到影响居民消费水平的主要原因,通过计量经济分析方法来建立合理的模型,探讨影响居民消费增长的长期趋势规律,并给政府提出合理的建议,以提高居民消费水平。 二、影响居民消费水平的因素 宏观经济模型) + GDP- + + =,经济发展应该紧紧抓住消费这一 I (M C X G 驾马车,而居民消费水平的高低受制于多种因素。凯恩斯消费理论认为居民消费主要受收入影响,我国居民消费一直很低,消费意愿不强,本文通过计量分析找

到影响我国居民消费水平的主要因素,从根本上改善消费不足,促进我国经济的持续稳定健康发展。 消费分为居民消费和,居民消费包括农村居民消费和城镇居民消费。本文结合居民消费水平的影响因素,列出了国内生产总值、职工平均工资指数、城镇居民消费价格指数、普通中学及高等学校在校生数、卫生机构数和基本设施铁路公路货运量等相关因素,进行计量分析,得到回归模型。 三、居民消费水平模型的总体分析框架 (1)多元线性回归法OLS 概述[1] 回归分析是计量经济分析中使用最多的方法,在现实问题研究中,因变量往往受制于多个经济变量的影响,通过统计资料,根据多个解释变量的最优组合来建立回归方程预测被解释变量的回归分析称为多元线性回归法。其模型基本形式为: 其中0β、1β、2β、3β…k β是1+k 个未知参数,称为多元回归系数。Y 称为被解释变量,t X 1、t X 2、t X 3…kt X 是k 个可以精确测量和可控的一般解释变量, t μ是随机误差项。当2≥k 时,上式为多元线性回归模型。 (2)多元回归模型的建立 定义被解释变量和解释变量,被解释变量为居民消费水平(Y 元),解释变量为国内生产总值(1X 亿元)、职工平均工资指数(2X )、城镇居民消费价格指数(3X )、普通中学及高等学校在校生数(4X 万人)、卫生机构数(5X 个)和基本设施铁路公路货运量(6X 万吨)。 (3)统计数据选取 本文所有数据均来自中国统计局和中国统计局外网中国统计年鉴。[2] 1978 184 21261 169732 195301 1979 208 175142 382929 1980 238 180553 493327 1981 264 190126 471336 1982 288 193438 492737 1983 316 196017 520197

SPSS多元回归分析报告实例

多元回归分析 在大多数的实际问题中,影响因变量的因素不是一个而是多个,我们称这类回问题为多元回归分析。可以建立因变量y与各自变量x j(j=1,2,3,…,n)之间的多元线性回归模型: 其中:b0是回归常数;b k(k=1,2,3,…,n)是回归参数;e是随机误差。 多元回归在病虫预报中的应用实例: 某地区病虫测报站用相关系数法选取了以下4个预报因子;x1为最多连续10天诱蛾量(头);x2为4月上、中旬百束小谷草把累计落卵量(块);x3为4月中旬降水量(毫米),x4为4月中旬雨日(天);预报一代粘虫幼虫发生量y(头/m2)。分级别数值列成表2-1。 预报量y:每平方米幼虫0~10头为1级,11~20头为2级,21~40头为3级,40头以上为4级。 预报因子:x1诱蛾量0~300头为l级,301~600头为2级,601~1000头为3级,1000头以上为4级;x2卵量0~150块为1级,15l~300块为2级,301~550块为3级,550块以上为4级;x3降水量0~10.0毫米为1级,10.1~13.2毫米为2级,13.3~17.0毫米为3级,17.0毫米以上为4级;x4雨日0~2天为1级,3~4天为2级,5天为3级,6天或6天以上为4级。 表2-1 x1 x2 x3 x4 y 年蛾量级别卵量级别降水量级别雨日级别幼虫密 度 级别 1960 1022 4 112 1 4.3 1 2 1 10 1 1961 300 1 440 3 0.1 1 1 1 4 1 1962 699 3 67 1 7.5 1 1 1 9 1 1963 1876 4 675 4 17.1 4 7 4 55 4 1965 43 1 80 1 1.9 1 2 1 1 1 1966 422 2 20 1 0 1 0 1 3 1 1967 806 3 510 3 11.8 2 3 2 28 3

一元线性回归分析实验报告

一元线性回归在公司加班制度中的应用 院(系): 专业班级: 学号姓名: 指导老师: 成绩: 完成时间:

一元线性回归在公司加班制度中的应用 一、实验目的 掌握一元线性回归分析的基本思想和操作,可以读懂分析结果,并写出回归方程,对回归方程进行方差分析、显著性检验等的各种统计检验 二、实验环境 SPSS21.0 windows10.0 三、实验题目 一家保险公司十分关心其总公司营业部加班的程度,决定认真调查一下现状。经10周时间,收集了每周加班数据和签发的新保单数目,x 为每周签发的新保单数目,y 为每周加班时间(小时),数据如表所示 y 3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0 2. x 与y 之间大致呈线性关系? 3. 用最小二乘法估计求出回归方程。 4. 求出回归标准误差σ∧ 。 5. 给出0 β∧与1 β∧ 的置信度95%的区间估计。 6. 计算x 与y 的决定系数。 7. 对回归方程作方差分析。 8. 作回归系数1 β∧ 的显著性检验。 9. 作回归系数的显著性检验。 10.对回归方程做残差图并作相应的分析。

11.该公司预测下一周签发新保单01000 x=张,需要的加班时间是多少? 12.给出0y的置信度为95%的精确预测区间。 13.给出 () E y的置信度为95%的区间估计。 四、实验过程及分析 1.画散点图 如图是以每周加班时间为纵坐标,每周签发的新保单为横坐标绘制的散点图,从图中可以看出,数据均匀分布在对角线的两侧,说明x和y之间线性关系良好。 2.最小二乘估计求回归方程

用SPSS 求得回归方程的系数01,ββ分别为0.118,0.004,故我们可以写出其回归方程如下: 0.1180.004y x =+ 3.求回归标准误差σ∧ 由方差分析表可以得到回归标准误差:SSE=1.843 故回归标准误差: 2= 2SSE n σ∧-,2σ∧=0.48。 4.给出回归系数的置信度为95%的置信区间估计。 由回归系数显著性检验表可以看出,当置信度为95%时:

多元线性回归实验报告

实验题目:多元线性回归、异方差、多重共线性 实验目的:掌握多元线性回归的最小二乘法,熟练运用Eviews软件的多元线性回归、异方差、多重共线性的操作,并能够对结果进行相应的分析。 实验内容:习题3.2,分析1994-2011年中国的出口货物总额(Y)、工业增加值(X2)、人民币汇率(X3),之间的相关性和差异性,并修正。 实验步骤: 1.建立出口货物总额计量经济模型: 错误!未找到引用源。(3.1) 1.1建立工作文件并录入数据,得到图1 图1 在“workfile"中按住”ctrl"键,点击“Y、X2、X3”,在双击菜单中点“open group”,出现数据 表。点”view/graph/line/ok”,形成线性图2。 图2 1.2对(3.1)采用OLS估计参数 在主界面命令框栏中输入ls y c x2 x3,然后回车,即可得到参数的估计结果,如图3所示。

图 3 根据图3中的数据,得到模型(3.1)的估计结果为 (8638.216)(0.012799)(9.776181) t=(-2.110573) (10.58454) (1.928512) 错误!未找到引用源。错误!未找到引用源。F=522.0976 从上回归结果可以看出,拟合优度很高,整体效果的F检验通过。但当错误!未找到引用源。=0.05时,错误!未找到引用源。=错误!未找到引用源。2.131.有重要变量X3的t检验不显著,可能存在严重的多重共线性。 2.多重共线性模型的识别 2.1计算解释变量x2、x3的简单相关系数矩阵。 点击Eviews主画面的顶部的Quick/Group Statistics/Correlatios弹出对话框在对话框中输入解释变量x2、x3,点击OK,即可得出相关系数矩阵(同图4)。 相关系数矩阵 图4 由图4相关系数矩阵可以看出,各解释变量相互之间的相关系数较高,证实解释变量之间存在多重共线性。 2.2多重共线性模型的修正

一元线性回归分析实验报告

. . . 一元线性回归在公司加班制度中的应用 院(系): 专业班级: 学号姓名: 指导老师: 成绩: 完成时间:

一元线性回归在公司加班制度中的应用 一、实验目的 掌握一元线性回归分析的基本思想和操作,可以读懂分析结果,并写出回归方程,对回归方程进行方差分析、显著性检验等的各种统计检验 二、实验环境 SPSS21.0 windows10.0 三、实验题目 一家保险公司十分关心其总公司营业部加班的程度,决定认真调查一下现状。经10周时间,收集了每周加班数据和签发的新保单数目,x为每周签发的新保单数目,y为每周加班时间(小时),数据如表所示 2.x与y之间大致呈线性关系? 3.用最小二乘法估计求出回归方程。 4.求出回归标准误差σ∧。 5.给出0β∧与1β∧的置信度95%的区间估计。 6.计算x与y的决定系数。 7.对回归方程作方差分析。 8.作回归系数1β∧的显著性检验。 9.作回归系数的显著性检验。 10.对回归方程做残差图并作相应的分析。 x=,需要的加班时间是多少? 11.该公司预测下一周签发新保单01000

12.给出0y的置信度为95%的精确预测区间。 E y的置信度为95%的区间估计。 13.给出()0 四、实验过程及分析 1.画散点图 如图是以每周加班时间为纵坐标,每周签发的新保单为横坐标绘制的散点图,从图中可以看出,数据均匀分布在对角线的两侧,说明x和y之间线性关系良好。 2.最小二乘估计求回归方程

用SPSS 求得回归方程的系数01,ββ分别为0.118,0.004,故我们可以写出其回归方程如下: 0.1180.004y x =+ 3.求回归标准误差σ∧ ANOVA a 模型 平方和 自由度 均方 F 显著性 1 回归 16.682 1 16.682 72.396 .000b 残差 1.843 8 .230 总计 18.525 9 a. 因变量:y b. 预测变量:(常量), x 由方差分析表可以得到回归标准误差:SSE=1.843 故回归标准误差: 2= 2SSE n σ∧-,2σ∧=0.48。 4.给出回归系数的置信度为95%的置信区间估计。

基于SPSS的多元回归分析模型选取的应用毕业论文

毕业论文题目基于SPSS的多元回归分析模型选取的应用

基于SPSS的多元回归分析模型选取的应用 摘要 本文不仅对于复杂的统计计算通过常用的计算机应用软件SPSS来实现,同时通过对两组数据的实证分析,来研究统计学中多元回归分析中的变量选取,让大家对统计学中的多元回归分析中模型的选取以及变量的选取和操作方法有更深层次的了解. 一组数据是对于淘宝交易额的未来发展趋势的研究,一组数据时对于我国财政收入的研究. 本文通过两个实证即淘宝交易额研究和财政收入研究从不同程度上对非线性回归模型和变量选取的研究运用通俗的语言和浅显的描述将SPSS在多元回归分析中的统计分析方法呈现在大家面前,让大家对多元回归分析以及SPSS软件都可以有更深一步的了解. 通过SPSS软件对数据进行分析,对数据进行处理的方法进行总结,找出SPSS对于数据处理和分析的优缺点,最后得在对变量的选取和软件的操作提出建议. 关键词:统计学,SPSS,变量选取,多元回归分析 Abstract This article not only for complex statistical calculations done by the commonly used computer application software of SPSS, through the empirical analysis of the two groups of data at the same time, to study the statistics of the variables in the multivariate regression analysis, let everybody in the multiple regression analysis of statistical model selection as well as the selection of variables and operation methods have a deeper understanding. Is a set of data for the future development trend of research taobao transactions, a set of data for the research of our country's fiscal revenue. In this paper, through two empirical taobao transactions and fiscal revenue research from different degree of the study of nonlinear regression model and variable selection using a common language and plain the SPSS statistical analysis method in multiple regression analysis of present in front of everyone, let everyone to multiple regression analysis and SPSS software can have a deeper understanding. Through SPSS software to analyze data, and summarizes method of data processing, find out the advantages and disadvantages of SPSS for data processing and analysis, finally had to put forward the proposal to the operation of the selection of variables and software. Keywords: Statistical, SPSS, The selection of variables, multiple regression analysis

相关文档
最新文档