回归分析总结

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

回归分析

应用最广泛的一种办法。但回归分析要求大样本,只有通过大量的数据才能得到量化的 规律,这对很多无法得到或一时缺乏数据的实际问题的解决带来困难。回归分析还要求几 样本有较好的分布规律,而很多实际情形并非如此。例如,我国建国以来经济方面有次大起大落,难以满足样本有较规律的分布要求。因此,有了大量的数据也不一定能得到统计规律,甚至即使得到了统计规律,也并非任何情况都可以分析。另外,回归分析不能分析因素间动态的关联程度,即使是静态,其精度也不高,且常常出现反常现象前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数据拟合得最好。通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看,问题似乎已经完全解决了,还有进一步研究的必要吗? 从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些 系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间 太大,甚至包含了零点,那么系数的估计值是没有多大意义的。另外也可以用方差分析 方法对模型的误差进行分析,对拟合的优劣给出评价。简单地说,回归分析就是对拟合 问题作的统计分析。

数据的标准化处理数据的中心化处理是指平移变换 数据的无量纲化处理在实际问题中,不同变量的测量单位往往是不一样的。为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进行所谓的压缩处理,即使每个变量的方差均变成 1

标准化处理所谓对数据的标准化处理,是指对数据同时进行中心化-压缩处理 一元线性回归假设对于x 的n 个值i

x ,得到y 的n 个相应的值

i

y ,确定

01

ββ,的方法是根

据最小二乘准则,要使

22

01011

1

(,)[()]n

n

i i

i i i Q y

x ββεββ===

=

-+∑∑

取最小值。利用极值必要条件令010,0Q Q

ββ∂∂==∂∂,求01ββ,的估计值

01ˆˆββ,,从而得到回归直线

01ˆˆy x ββ=+。只不过这个过程可以由软件通过直线拟合完成,而无须进行繁杂的

运算。

(1)参数的区间估计

由于我们所计算出的01ˆˆββ,仍然是随机变量,因此要对01ˆˆββ,取值的区间进行估计,如果

区间估计值是一个较短的区间表示模型精度较高。

(2)对误差方差的估计 设

ˆi y

为回归函数的值,

i

y 为测量值,残差平方和

21

ˆ()n

i i i Q y y

==-∑

剩余方差

22Q s n =

-

(3)线性相关性的检验

由于我们采用的是一元线性回归,因此,如果模型可用的话,应该具有较好的线性关系。反映模型是否具有良好线性关系可通过相关系数R 的值及F 值观察(后面的例子说明)。 一个好的拟合方程,其残差总和应越小越好。残差越小,拟合值与观测值越接近, 各观测点在拟合直线周围聚集的紧密程度越高,也就是说,拟合方程的能力越强。 另外,当e S 越小时,还说明残差值i e 的变异程度越小。由于残差的样本均值为零, 所以,其离散范围越小,拟合的模型就越为精确。 例1 测得16名成年女子身高y 与腿长x 所得数据如下:

首先利用命令plot(x,y,'r*')画出散点图,从图形可以看出,这些点大致分布在一条直线的左右,因此,可以考虑一元线性回归。可编制程序如下: %输入y (因变量,列向量)、x (1与自变量组成的矩阵,见下例),alpha 是显著性水平(缺

省时默认0.05)。输出01

ˆˆ(,)b ββ=,注意:b 中元素顺序(系数)与拟合命令polyfit 的输出不同,bint 是01ββ,的置信区间,r 是残差(列向量),rint 是残差的置信区间,s 包含4个统计量:决定系数2

R (相关系数为R );F 值;F(1,n-2)分布大于F 值的概率p ;剩余方差

2s 的值(MA TLAB7.0以后版本)。2s 也可由程序sum(r.^2)/(n-2)计算。

其意义和用法如下:2

R 的值越接近1,变量的线性相关性越强,说明模型有效;如果满足

1(1,2)F n F α--<,则认为变量y 与x 显著地有线性关系,其中1(1,2)F n α--的值可查F 分

布表,或直接用MA TLAB 命令finv(1-α,1, n-2)计算得到;如果p α<表示线性模型可用。这三个值可以相互印证。2s 的值主要用来比较模型是否有改进,其值越小说明模型精度越高。

y=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164];

x=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]; plot(x,y,'r*') n=16;

X=[ones(n,1),x'];

[b,bint,r,rint,s]=regress(y',X,0.05); b,bint,s,

rcoplot(r,rint)

运行后得到

b = 31.7713 1.2903 bint = 12.3196 51.2229 1.0846 1.4960

s = 0.9282 180.9531 0.0000 3.1277

2R =0.9282,由finv(0.95,1,14)= 4.6001,即1(1,2)F n α--= 4.6001

可以通过残差图发现,第二个数据为奇异数据,去掉该数据后运行后得到 b = 17.6549 1.4363 bint = -0.5986 35.9083 1.2445 1.6281

s = 0.9527 261.6389 0.0000 1.9313

2R =0.9527,由finv(0.95,1,13)= 4.6672,即1(1,2)F n α--= 4.6672

17.6549 1.4363y x =+。

当然,也可以利用直线拟合得到同一方程。只不过不能得到参数置信区间和对模型进行检验。拟合程序如下: 多元线性回归分析

1 多元线性回归模型的建模步骤及其MATLAB 实现

如果根据经验和有关知识认为与因变量有关联的自变量不止一个,那么就应该考虑用最小二乘准则建立多元线性回归模型。

设影响因变量y 的主要因素(自变量)有m 个,记1(,,)

m x x x =,假设它们有如下

的线性关系式:

011m m y x x βββε

=++++ ,

2

~(0,)N εσ 如果对变量y 与自变量12,,

,m

x x x 同时作n 次观察(n>m )得n 组观察值,采用最小二乘

估计求得回归方程

011ˆˆˆˆk m

y x x βββ=+++.

建立回归模型是一个相当复杂的过程,概括起来主要有以下几个方面工作(1)根据研究目

的收集数据和预分析;(2)根据散点图是否具有线性关系建立基本回归模型;(3)模型的精细分析;(4)模型的确认与应用等。

收集数据的一个经验准则是收集的数据量(样本容量)至少应为可能的自变量数目的6~10倍。在建模过程中首先要根据所研究问题的目的设置因变量,然后再选取与该因变量有统计关系的一些变量作为自变量。我们当然希望选择与问题关系密切的变量,同时这些变量之间

相关文档
最新文档