正交回归(正交多项式回归)

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

正交回归（正交多项式回归）

多项式回归虽然是一种有效的统计方法，但这种方法存在着两个缺点：一是计算量较大，特别是当自变量个数较多，或者自变量幂较高时，计算量迅速增加；二是回归系数间存在着相关性，从而剔除一个变量后还必须重新计算求出回归系数。

当自变量x的取值是等间隔时，我们可以利用正交性原理有效地克服上述缺点。这种多项式回归方法就是本节将要介绍的正交多项式回归。

一、正交多项式回归的数学模型

设变量y和x的n组观测数据服从以下k次多项式

(2-4-17)

令

(2-4-18)

…分别是x的一次、二次,…k次多项式，a ij是一些适当选择的常数，如何选择将在下面讨论(i=1,2,…，n)。将(2-4-18)式代入(2-4-17)式，则有

(2-4-19)

比较(2-4-19)和(2-4-17)式可知，二者系数间存在简单的函数关系，只要求出，就可以求出。

若把…看作新的自变量，则(2-4-19)式就成为一个k元线性模型，其结构矩阵为

(2-4-20) 正规方程为

(2-4-21)

(2-4-22) 其中

在上节中我们遇到的困难是解正规方程系数矩阵的工作量太大，如果我们有办法使其对角线上的元素不为零，而其余元素均为零，那么计算就大大简化了，而且同时消去了系数间的相关性。

对于…我们可以通过选择系数a10,a21,a20,…,a k,k-,…,a k0使得

i

(2-4-23)

（2-4-24）

则正规方程组为

(2-4-29)

回归系数为

(2-4-30)

满足(2-4-23)和(2-4-24)式的多项式组…我们称之为正交多项式。显然这里关键的问题是如何找出一组正交多项式。换言之，就是如何选择系数a10,a21,a20,…,a k,k-i,…,a k0使(2-4-23)和(2-4-24)式成立。

在正交多项式回归中自变量的选择是等间隔的，设间隔为h,x0=a, 则

(2-4-31)

(2-4-32)

则

(2-4-33)

由此可见，是1至n的正整数。只要我们用代替x作为自变量，问题就变得简单了。在条件许可时，为简便起见我们在选取自变量时可直接取

x1=1,x2=2,…，x n=n。

当x1=1,x2=2,…，x n=n时有

这时可验证以下多项式是正交的，即

(2-4-34)

显然，当x取正整数时，不一定是整数，为了克服这给计算上带来的困难，取

(2-4-35)

为这样一个系数，它使x取正整数时是整数。可以验证用

正交多项式代替所求得的回归方程与用正交多项式

所求得的回归方程是完全一样的。

对于正交多项式有

(2-4-36)

不同的n相对应的,在时的值以及S i值都已制成正交多项式表(见附录)，根据正交多项式表，可以计算出回归方程的系数。令

(2-4-37)

则

回归方程为

(2-4-40)

由于正交多项式回归系数之间不存在相关性，因此某一项如果不显著，只要将它剔除即可，而不必对整个回归方程重新计算。

二、回归方程与回归系数的显著性检验

正交多项式回归方程与回归系数的显著性检验可利用正交多项式的性质按表2-4-5进行。经检验不显著的高次项可以剔除，将其效应并入残差平方和，自由度也同时并入，如果对回归方程精度不满意，可以增加高次项，而已经计算出的结果不必重算。

表2-4-5 正交多项式回归方差分析表

一、应用举例

我们仍以例2-4-2为例讨论正交多项回归的应用。由图2-4-3我们知道，y是x的二次函数，现在我们利用正交多项式方法配一个三次多项式。

首先做变换其中a=36.5,h=0.5,则

然后查正交多项式表，将n=13表中数据抄录下来。

计算：

将以上结果列于计算表，见表2-4-6。

表2-4-6 计算表

由表2-4-6可得

S总＝L yy=

S残＝L yy-S回＝L yy－=0.8139

b0=

方差分析结果列于表2-4-7。

表2-4-7 方差分析表

查F分布表，F0.01(1,9)=10.6,F0.05(1,9)=5.12，对照表2-4-7可知，一次项显著，二次项高度显著，三次项不显著，故可将三次项剔除，并将三次项的偏回归平方和并入残差项。

多项式回归方程为

为了利用回归方程进行予报和控制，常需要求出的估计值。当存在不显著项时，估计方法如下：

本例中

故

二、正交多项式回归分析程序框图

1.数学模型

2.变量及数组说明

J－正确读入数据的控制变量

N－试验组数

M－所取正交多项式项数

X(I)－存自变量数值

Y(I)－存因变量数值

Z(I)－存Y(I)的平方项

E(I,1)－存在正交多项式一次项

E(I,2)－存在正交多项式二次项

E(I,3)－存在正交多项式三次项(其中I=1,…N)

S(J)－结构矩阵逆矩阵元素J=1,2,3 B(J)－常数项矩阵B J=1,2,3

D(J)－回归系数J=0,1,2,3

Q(J)－偏回归平方和J=0,1,2,3

S0－剩余平方和

S－标准离差

S1－总平方和

F(J)－F检验值

3.程序框图：