回归分析总结

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

回归分析

应用最广泛的一种办法。但回归分析要求大样本，只有通过大量的数据才能得到量化的规律，这对很多无法得到或一时缺乏数据的实际问题的解决带来困难。回归分析还要求几样本有较好的分布规律，而很多实际情形并非如此。例如，我国建国以来经济方面有次大起大落，难以满足样本有较规律的分布要求。因此，有了大量的数据也不一定能得到统计规律，甚至即使得到了统计规律，也并非任何情况都可以分析。另外，回归分析不能分析因素间动态的关联程度，即使是静态，其精度也不高，且常常出现反常现象前面我们讲过曲线拟合问题。曲线拟合问题的特点是，根据得到的若干有关变量的一组数据，寻找因变量与（一个或几个）自变量之间的一个函数，使这个函数对那组数据拟合得最好。通常，函数的形式可以由经验、先验知识或对数据的直观观察决定，要作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看，问题似乎已经完全解决了，还有进一步研究的必要吗? 从数理统计的观点看，这里涉及的都是随机变量，我们根据一个样本计算出的那些系数，只是它们的一个（点）估计，应该对它们作区间估计或假设检验，如果置信区间太大，甚至包含了零点，那么系数的估计值是没有多大意义的。另外也可以用方差分析方法对模型的误差进行分析，对拟合的优劣给出评价。简单地说，回归分析就是对拟合问题作的统计分析。

数据的标准化处理数据的中心化处理是指平移变换数据的无量纲化处理在实际问题中，不同变量的测量单位往往是不一样的。为了消除变量的量纲效应，使每个变量都具有同等的表现力，数据分析中常用的消量纲的方法，是对不同的变量进行所谓的压缩处理，即使每个变量的方差均变成 1

标准化处理所谓对数据的标准化处理，是指对数据同时进行中心化－压缩处理一元线性回归假设对于x 的n 个值i

x ，得到y 的n 个相应的值

y ，确定

ββ，的方法是根

据最小二乘准则，要使

01011

(,)[()]n

i i

i i i Q y

x ββεββ===

-+∑∑

取最小值。利用极值必要条件令010,0Q Q

ββ∂∂==∂∂，求01ββ，的估计值

01ˆˆββ，，从而得到回归直线

01ˆˆy x ββ=+。只不过这个过程可以由软件通过直线拟合完成，而无须进行繁杂的

运算。

（1）参数的区间估计

由于我们所计算出的01ˆˆββ，仍然是随机变量，因此要对01ˆˆββ，取值的区间进行估计，如果

区间估计值是一个较短的区间表示模型精度较高。

（2）对误差方差的估计设

ˆi y

为回归函数的值，

y 为测量值，残差平方和

ˆ()n

i i i Q y y

==-∑

剩余方差

22Q s n =

（3）线性相关性的检验

由于我们采用的是一元线性回归，因此，如果模型可用的话，应该具有较好的线性关系。反映模型是否具有良好线性关系可通过相关系数R 的值及F 值观察（后面的例子说明）。一个好的拟合方程，其残差总和应越小越好。残差越小，拟合值与观测值越接近，各观测点在拟合直线周围聚集的紧密程度越高，也就是说，拟合方程的能力越强。另外，当e S 越小时，还说明残差值i e 的变异程度越小。由于残差的样本均值为零，所以，其离散范围越小，拟合的模型就越为精确。例1 测得16名成年女子身高y 与腿长x 所得数据如下：

首先利用命令plot(x,y,'r*')画出散点图，从图形可以看出，这些点大致分布在一条直线的左右，因此，可以考虑一元线性回归。可编制程序如下： %输入y （因变量，列向量）、x （1与自变量组成的矩阵，见下例），alpha 是显著性水平（缺

省时默认0.05）。输出01

ˆˆ(,)b ββ=，注意：b 中元素顺序（系数）与拟合命令polyfit 的输出不同，bint 是01ββ，的置信区间，r 是残差（列向量），rint 是残差的置信区间，s 包含4个统计量：决定系数2

R （相关系数为R ）；F 值；F(1,n-2)分布大于F 值的概率p ；剩余方差

2s 的值（MA TLAB7.0以后版本）。2s 也可由程序sum(r.^2)/(n-2)计算。

其意义和用法如下：2

R 的值越接近1，变量的线性相关性越强，说明模型有效；如果满足

1(1,2)F n F α--<，则认为变量y 与x 显著地有线性关系，其中1(1,2)F n α--的值可查F 分

布表，或直接用MA TLAB 命令finv(1-α,1, n-2)计算得到；如果p α<表示线性模型可用。这三个值可以相互印证。2s 的值主要用来比较模型是否有改进，其值越小说明模型精度越高。

y=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164];

x=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]; plot(x,y,'r*') n=16;

X=[ones(n,1),x'];

[b,bint,r,rint,s]=regress(y',X,0.05); b,bint,s,

rcoplot(r,rint)

运行后得到

b = 31.7713 1.2903 bint = 12.3196 51.2229 1.0846 1.4960

s = 0.9282 180.9531 0.0000 3.1277

2R =0.9282，由finv(0.95,1,14)= 4.6001，即1(1,2)F n α--= 4.6001

可以通过残差图发现，第二个数据为奇异数据，去掉该数据后运行后得到 b = 17.6549 1.4363 bint = -0.5986 35.9083 1.2445 1.6281

s = 0.9527 261.6389 0.0000 1.9313

2R =0.9527，由finv(0.95,1,13)= 4.6672，即1(1,2)F n α--= 4.6672

17.6549 1.4363y x =+。

当然，也可以利用直线拟合得到同一方程。只不过不能得到参数置信区间和对模型进行检验。拟合程序如下：多元线性回归分析

1 多元线性回归模型的建模步骤及其MATLAB 实现

如果根据经验和有关知识认为与因变量有关联的自变量不止一个，那么就应该考虑用最小二乘准则建立多元线性回归模型。

设影响因变量y 的主要因素（自变量）有m 个，记1(,,)

m x x x =，假设它们有如下

的线性关系式：

011m m y x x βββε

=++++ ，

~(0,)N εσ 如果对变量y 与自变量12,,

x x x 同时作n 次观察（n>m ）得n 组观察值，采用最小二乘

估计求得回归方程

011ˆˆˆˆk m

y x x βββ=+++.

建立回归模型是一个相当复杂的过程，概括起来主要有以下几个方面工作（1）根据研究目

的收集数据和预分析；（2）根据散点图是否具有线性关系建立基本回归模型；（3）模型的精细分析；（4）模型的确认与应用等。

收集数据的一个经验准则是收集的数据量（样本容量）至少应为可能的自变量数目的6~10倍。在建模过程中首先要根据所研究问题的目的设置因变量，然后再选取与该因变量有统计关系的一些变量作为自变量。我们当然希望选择与问题关系密切的变量，同时这些变量之间