计算方法 最佳平方逼近-最小二乘法
最小二乘法的原理及其应用

最小二乘法的原理及其应用-CAL-FENGHAI.-(YICAI)-Company One1最小二乘法的原理及其应用一、研究背景在科学研究中,为了揭示某些相关量之间的关系,找出其规律,往往需要做数据拟合,其常用方法一般有传统的插值法、最佳一致逼近多项式、最佳平方逼近、最小二乘拟合、三角函数逼近、帕德(Pade)逼近等,以及现代的神经网络逼近、模糊逼近、支持向量机函数逼近、小波理论等。
其中,最小二乘法是一种最基本、最重要的计算技巧与方法。
它在建模中有着广泛的应用,用这一理论解决讨论问题简明、清晰,特别在大量数据分析的研究中具有十分重要的作用和地位。
随着最小二乘理论不断的完善,其基本理论与应用已经成为一个不容忽视的研究课题。
本文着重讨论最小二乘法在化学生产以及系统识别中的应用。
二、最小二乘法的原理人们对由某一变量t或多个变量t1…..tn 构成的相关变量y感兴趣。
如弹簧的形变与所用的力相关,一个企业的盈利与其营业额,投资收益和原始资本有关。
为了得到这些变量同y之间的关系,便用不相关变量去构建y,使用如下函数模型,q个相关变量或p个附加的相关变量去拟和。
通常人们将一个可能的、对不相关变量t的构成都无困难的函数类型充作函数模型(如抛物线函数或指数函数)。
参数x是为了使所选择的函数模型同观测值y相匹配。
(如在测量弹簧形变时,必须将所用的力与弹簧的膨胀系数联系起来)。
其目标是合适地选择参数,使函数模型最好的拟合观测值。
一般情况下,观测值远多于所选择的参数。
其次的问题是怎样判断不同拟合的质量。
高斯和勒让德的方法是,假设测量误差的平均值为0。
令每一个测量误差对应一个变量并与其它测量误差不相关(随机无关)。
人们假设,在测量误差中绝对不含系统误差,它们应该是纯偶然误差,围绕真值波动。
除此之外,测量误差符合正态分布,这保证了偏差值在最后的结果y上忽略不计。
确定拟合的标准应该被重视,并小心选择,较大误差的测量值应被赋予较小的权。
最佳逼近

若p S是最佳逼近元,则f p S,即
( f - g , 1 ( x)) 0, ( f - g , 2 ( x)) 0,..., ( f - g , m ( x))
称为法方程或者正规方程。
( f ( x ) - p( x )) ( x ) [ y (c ( x ) ... c
函数的最佳逼近
主讲 孟纯军
插值法是用多项式近似的表示函数,并要 求在他们的某些点处的值相拟合. 最佳逼近(或者曲线拟和)也是用简单 函数逼近复杂函数(或未知函数),但 是,逼近的原则和插值的原则不一样。
离散情形
最小二乘拟合直线 最小二乘拟合多项式 非线性拟合
Hilbert空间中的投影定理
1的基为1, x, 则g 1是f ( x)在最佳逼近元的充要条件为
(f g ,1)= ( f ( xi ) g ( xi )) 1 ( f ( xi ) (a bxi )) 1 0
i 1 i 1
n
n
(f g ,x)= ( f ( xi ) g ( xi )) xi ( f ( xi ) (a bxi )) xi 0
2 i 1
n
即如下最佳逼近问题:
1.子空间为 m,即次数不超过n的多项式, 取它的基函数为 1, x,...x ;
m
2. 在 m中找一个元素p( x),使它与给定函数 f ( x)最靠近,即 ( p( xi) f ( xi )) 2 min 。
i 1 n
p m是f ( x)在最佳逼近元的充要条件为
b=0.9068
最小二乘拟合直线为y= 0.0147 +0.9068x
数值计算方法教案51

第5章 多项式逼近与曲线拟合教学目的 1. 理解连续函数空间,正交多项式理论;2. 掌握最佳平方逼近及最小二乘逼 近函数的求解方法;3. 理解非线性模型举例的有关知识的基础上会求模型的逼近函数。
教学重点及难点 重点是最佳平方逼近及最小二乘逼近函数的求解。
难点是会求非线性模型的逼近函数。
教学时数 6学时 教学过程§1 引言在科学计算中有下述两类逼近问题。
1.关于数学函数的逼近问题由于电子计算机只能做算术运算,因此,在计算机上计算数学函数(例如x x f e x f x sin )(,)(==等在有限区间上计算)必须用其他简单的函数来逼近(例如用多项式或有理分式来逼近数学函数,)且用它来代替原来精确的数学函数的计算。
这种函数逼近的特点是:(a )要求是高精度逼近;(b )要快速计算(计算量越小越好)。
2.建立实验数据的数学模型给定函数的实验数据,需要用较简单和合适的函数来逼近(或拟合实验数据)。
例如,已知)(x f y =实验数据mm y y y x f x x x x 2121)(希望建立)(x f y =数学模型(近似表达式),这种逼近的特点是: (a )适度的精度是需要的; (b )实验数据有小的误差;(c )对于某些问题,可能有某些特殊的信息能够用来选择实验数据的数学模型。
事实上,我们已经学过一些用多项式逼近一个函数)(x f y =的问题,例如 (1)用在0x x =点Taylor 多项式逼近函数 设)(x f y =在[a,b]上各阶导数)1,,1,0)(()(+=n i x fi 存在且连续,],[0b a x ∈,则有)()(!)())((')()(00)(000x R x x n x f x x x f x f x f n n n +-++-+=)()(x R x P n n +≡其中εε],,[,)()!1()()(10)1(b a x x x n f x R n n ∈-+=++在0x 和x 之间。
第二章最佳平方逼近

第二章 最佳平方逼近为了便于计算和分析,常常需要用一个简单的函数()x ϕ来近似代替给定的函数()f x ,这类问题称为函数逼近问题。
插值问题以及Taylor 展开问题都属于这类问题。
本章介绍另一种函数逼近问题,即最佳平方逼近。
最佳平方逼近问题的提法是:设()f x 是[],a b 上的连续函数,n H 是所有次数不超过n 的多项式的集合,在n H 中求()n P x *逼近()f x ,使()()()()()1/2222infnb n naP x H f Px f x P x dx f Pρ**∈⎡⎤-=-=-⎣⎦⎰此时称()n P x *为()f x 在[],a b 上的最佳平方逼近多项式。
我们将要研究()n P x *是否存在?是否唯一?如何求得()n P x *?首先介绍正交多项式及其性质。
§1、正交多项式正交多项式是函数逼近的重要工具,在数值积分中也有广泛的应用。
1.1正交函数系的概念定义1 设()x ρ定义在[],a b 上(有限或无限),如果满足条件:(1)()[]0,,x x a b ρ≥∈; (2)()()0,1,bnax x dx n ρ=⎰存在;(3)对非负连续函数()f x ,若()()0ba f x x dx ρ=⎰,则在[],a b 上一定有()0f x ≡那么称()x ρ是区间[],a b 上的权函数。
简称为权函数。
权函数()x ρ的一种解释是物理上的密度函数,相应的()bax dx ρ⎰表示总质量。
当()x ρ=常数时,表示质量分布是均匀的。
下面引进内积定义。
定义2 给定()[]()(),,,,f x g x C a b x ρ∈是[],a b 上的权函数,称 ()()(),()ba f g x f x g x dx ρ=⎰ ()1.1为函数()f x 与()g x 在[],a b 上的内积。
内积具有下列简单性质: ()f g g f (1)、(,)=,;()()()1212,)(,00.f g f g R f f g f g f g f f f ααα∈++≠>(2)、(,)=,;(3)、 (,)=(4)、 当时,, 此外,还有如下Cauchy-Schwarz 不等式()()()2,,,.f g f f g g ≤⋅ ()1.2我们知道,一个向量的长度的几何概念,对于函数空间及逼近有许多自然的应用。
计算方法 最佳平方逼近-最小二乘法

只需证明 (s(x), s(x)) (s(x), f(x)) 即:
n
n
n
( akk (x), ajj(x)) ( akk (x), f(x))
k0
j0
k0
整理上式,得
n
n
n
ak[ aj(k(x), j(x))]
ak (k (x), f(x))
k0
j0
k0
根据之前S*(x)存在性证明过程中得到的(3.3)式,即:
10 27
88 x 135
平方误差 :|| δ(x) ||22
1xdx
1
( 10 27
7 12
31 80
) 88
135
4
1.02
p1* (x)
10 27
88 x. 135
1
f(x) x
平方误差 : || δ(x) ||22 0.0001082.
0.37
1/4
1
观察:在[1 , 1]上,f(x) 4
n
|| f(x) ||22 ak* (f, k ) (4.5) k0
逼近误差公式证明
|| δ(x) ||22 || f(x) - s(x) || (f(x) - s(x), f(x) - s(x)) (f(x), f(x)) (f(x), s(x)) - (s(x), f(x)) (s(x), s(x))
(x)dx
n
(k , j )aj (f, k ), k 0,1,...,n (3.3)
j0
展开成方程组形式:
(0 , 0 )a0 (0 , 1 )a1 (0 , n )an (f, 0 ) (1 , 0 )a0 (1 , 1 )a1 (1 , n )an (f, 1 )
最小二乘拟合算法

最小二乘拟合算法最小二乘定义一般情况下,最小二乘问题求的是使某一函数局部最小的向量 x,函数具有平方和的形式,求解可能需要满足一定的约束:信赖域反射最小二乘要理解信赖域优化方法,请考虑无约束最小化问题,最小化 f(x),该函数接受向量参数并返回标量。
假设您现在位于 n 维空间中的点 x 处,并且您要寻求改进,即移至函数值较低的点。
基本思路是用较简单的函数 q 来逼近 f,该函数需能充分反映函数 f 在点 x 的邻域 N 中的行为。
此邻域是信赖域。
试探步 s 是通过在 N 上进行最小化(或近似最小化)来计算的。
以下是信赖域子问题如果f(x + s) < f(x),当前点更新为 x + s;否则,当前点保持不变,信赖域 N 缩小,算法再次计算试探步。
在定义特定信赖域方法以最小化 f(x) 的过程中,关键问题是如何选择和计算逼近 q(在当前点 x 上定义)、如何选择和修改信赖域 N,以及如何准确求解信赖域子问题。
在标准信赖域方法中,二次逼近 q 由 F 在 x 处的泰勒逼近的前两项定义;邻域 N 通常是球形或椭圆形。
以数学语言表述,信赖域子问题通常写作公式2其中,g 是 f 在当前点 x 处的梯度,H 是 Hessian 矩阵(二阶导数的对称矩阵),D 是对角缩放矩阵,Δ是正标量,∥ . ∥是 2-范数。
此类算法通常涉及计算 H 的所有特征值,并将牛顿法应用于以下久期方程它们要耗费与 H 的几个分解成比例的时间,因此,对于信赖域问题,需要采取另一种方法。
Optimization Toolbox 求解器采用的逼近方法是将信赖域子问题限制在二维子空间 S 内。
一旦计算出子空间 S,即使需要完整的特征值/特征向量信息,求解的工作量也不大(因为在子空间中,问题只是二维的)。
现在的主要工作已转移到子空间的确定上。
二维子空间 S 是借助下述预条件共轭梯度法确定的。
求解器将 S 定义为由 s1 和 s2 确定的线性空间,其中 s1 是梯度 g 的方向,s2 是近似牛顿方向,即下式的解或是负曲率的方向,以此种方式选择 S 背后的理念是强制全局收敛(通过最陡下降方向或负曲率方向)并实现快速局部收敛(通过牛顿步,如果它存在)。
最佳平方逼近第二次

由(3.8)和(3.9)确定的sn* ( x)满足
lim ||
n
f
(x) sn* (x) ||2
0.
特别地,勒让德多项式pn( x)在[1,1]上带权( x) 1正交, 且
11
pm ( x)
pn( x)dx
0, 2
2n
m n, , m n. 1
于是, 系数 从而
a*j
2
j 1( 2
f
,
...
...
...
bn n
an
cn
定理 最小二乘拟合多项式存在唯一 (n < m)。
证明:记法方程组为 Ba = c .
则有
B ΦTΦ c ΦT y
其中
Φ 1...
x1 ...
x12 ...
1 xm xm2
对任意 u 0 Rn1 ,必有 Φ u 0。
... ...
x1n ...
1 3
a0
a1
2 3
2 5
,
aa01
4 15
,
4 5
.
p1*
(x)
4 15
4 5
x.
平方误差: || (x) ||22
1
0
xdx
(
4 15
2 3
4 5
2 5
)
1 450
0.0022.
3.3.2、用正交函数族求最佳平方逼近
设f ( x) C[a,b], span{0,,n} C[a,b],0,,n是
S * (x) a0 a1x an xn
直接通过解法方程得到 H n 中的最佳平方逼近多项式是一致 的.
只是当 n 较大时法方程出现病态,计算误差较大,不能 使用,而用勒让德展开不用解线性方程组,不存在病态问题, 因此通常都用这种方法求最佳平方逼近多项式.
最佳平方逼近

所求的
应该使下式达极小:
由
整理得到
计算积分后,得法方程组
解之得 从而得到最佳平方逼近一次多项式
三、正交基函数的选择 如果我们选择子空间
正交,即 则法方程
简化为
即 容易求得 并得到最佳平方逼近
例3.2. 已知
在区间 [-1,1]上两两正交,试求
在这个
区间上的最佳平方逼近二次多项式,并给出误差估计。
应该使
整体达最小。 通过这种度量标准求得拟合曲线y=f(x)的方法,
就称作曲线拟合的最小二乘法。 按照以上思想来求出f(x)的拟合曲线,首先需
要确定出f(x)所属的函数类,然后进一步求出具体 函数,具体按照以下步骤进行。
二、最小二乘法拟合曲线的步骤
第一步:根据如下已知点的坐标,在坐标系里描点
第二步:根据图示,确定曲线所属的函数类型,例 如多项式函数类、三角函数类、指数函数 类、对数函数类等。假设所确定的函数类 的基函数为
而n+1元函数
在区间
上具有一阶连续导函数,因此根据
极值原理,在最小值点
处:
而 于是 即
利用内积 可以得到 这是一个含有n+1个变量的方程组,具体形式为:
再写成 矩阵形式为
这是关于n+1个变量
的线性方程组,并称
其为法方程组,或者正规方程组。
解此方程组,就可以得到 了f(x) 的最佳平方逼近:
,也就得到
同时,还需要给出连续函数
空间上的一个度量标准,下面通过内积给出平方范数。
二、连续函数的平方范数
已知所有连续函数构成的集合C[a,b]是一个线性
空间,对于C[a,b]中的任意函数
、 ,定义
实数
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
( 0 , 0 ) ( 0 , 1 ) (1 , 0 ) (1 , 1 ) … (n , 0 ) (n , 1 )
(0 , n ) a0 (f, 0 ) … (1 , n ) a1 (f, 1 ) … … … (n , n ) an (f, n ) …
内积的定义: 设f(x), g(x) C[a, b], ρ(x)为[a, b]
上的权函数, 则可定义内积:
(f, g)
b
ρ(x)f(x)g(x)dx
a
当ρ 1, (f, g)
b
b
a
f(x)g(x)dx
由内积可以定义范数(度量):
|| f(x) ||2 (f, f)
1 2
2 ρ(x)f (x)dx a
ρ (x)为权函数,若 存 在s * (x) Φ ,满足
b
a
ρ (x)[f(x) s * (x)] dx min ρ (x)[f(x) s(x)] dx
2 2 s(x)Φ a
b
则称s * (x)为f(x)在 Φ 上的最佳平方逼近函数 。
2
n … 【注】 若取 0 1, 1 x, 2 x , , n x 2 … n … 则 Φ span{0 , , n } span{1, x, x , , x }
应该是f(x)的最佳平方逼近函数。
结论:
1)
s * ( x ) 是f(x)在集合 Φ
证明(略)
上的最佳平方逼近函数。
2) 逼近误差公式(证明推导,见下页):
|| δ (x) || || f(x) - s (x) ||
2 2
(f(x), f(x)) - (S (x),f(x))
* || f(x) ||2 a k (f, k ) (4.5) 2 k 0 n
* 1
2 2
10 x dx ( 27 1
4
1
7 12
31 80
88 135
)
10 88 p (x) x. 27 135
f(x) x
平方误差 : || δ(x) || 0.0001082.
2 2
0.37
1/4
1
1 观察:在[ , 1]上,f(x) 4
x 和一个线性函数差不多 。
解: || f(x) - s(x) || max | 1 - x | 1
0 x 1
1 || f(x) - s(x) || (1 x) dx 3 0
2 2 2
1
3 || f(x) - s(x) ||2 0.578 3
权函数的定义
定义4 (1)
b
权函数ρ (x)和基 函数乘法的积分
计算方法 (Numerical Analysis)
第5次 最佳平方逼近与曲线拟合的最小二乘法
主要内容
• 最佳平方逼近 • 曲线拟合的最小二乘法
最佳平方逼近
函数逼近的类型
• 最佳一致逼近:使用多项式对连续函数进行一致 逼近。逼近误差使用范数
|| f(x) - s (x) || max | f(x) - s (x) |
推导在最后一页PPT
(f, 0 )
1
1
0
1 2 1 x dx ln(1 2 ) 1.147 2 2
2 2 3 2 2
1 2 2 1 1 (f, 1 ) x 1 x dx (1 x ) |0 0.609 0 3 3
1 1 2
1 2 a0 1.147 1 0.609 a1 3
a0 0.934,a 1 0.426
得最佳平方逼近多项式为:
S1 (x) 0.934 0.426x
1
2
y
1
1 x
2
S (x) 0.934 0.426x红色
即为全体n次多项式的 集合。
问题归结为求s * (x)
* * a , 即求系数a j j j , 使得 j0
n
I(a0 , … , an )
b
a
ρ(x)[f(x)
2 a ] j j dx j0
n
取得极小值。上式两端 对ak 求导,得: 为了求极值,设
b I (a0 , … , an ) 2 ρ(x)[f(x) a ak n b
3 4 15 32
10 88 p (x) x 27 135
* 1
15 32 21 64
7 a0 12 a0 31 a1 a1 80
10 27 88 135
平方误差 :|| δ (x) ||
1.02 1
0 1 n
作为基函数。
由此生成的线性空间
… , n } Φ span{0 ,
{a00 a11 ann }
中的函数对已知的连续函数f(x)进行逼近。
连续函数的在线性空间最佳平方逼近 … , n } C[a, b], 设f(x) C[a, b], Φ span{0 ,
( akk (x), a j j (x)) ( akk (x), f(x))
n n n k 0 j0 k 0 n
整理上式,得
k 0
a [ a (
k j0 j
n
n
k
(x), j (x))]
k 0
a
k
(k (x), f(x))
根据之前S*(x)存在性证明过程中得到的(3.3)式,即:
(
证明完毕。
j0
n
k
, j )a j (f, k ), k 0,1,..., n
例6 求f(x)
1 x 2 在[0,1]上的一次 最佳平方
* 1
逼近多项式。取 ρ (x ) 1。
解: 已知0 1, 1 x, 设所求S (x) a0 a1 x, 得法方程
权函数的意义:强化或弱化某部分积分函数值的影响。
例如:在[0, 5]上,取
5 3 0
ρ(x) x
3
则积分
x g(x)dx
起到了弱化g(x)在区间[0, 1]的函数值,强化g(x)在 区间[1, 5]的函数值的作用。 离散权函数:在学生成绩系统中 总分=a*平时分+b*实验分+c*作业分+d*期末分 例如,老师录入系数:a=0.1,b=0.2, c=0.1, d=0.6 ,则{a, b, c, d}即为离散的权函数。
(0 , 0 ) (0 , 1 ) (1, 0 ) (1, 1 ) … … (n , 0 ) (n , 1 )
( f,0 ) (1, n ) a1 ( f,1 ) … … … … … … (n , n ) a n ( f,n )
n
满足
b
a
ρ(x)[f(x) s * (x)] dx min
2
s(x)Hn
b
a
ρ(x)[f(x) s(x)]2dx
则称s * (x)为f(x)在[a, b]上的n次最佳平方 逼近多项式.
讨论:
• 最佳平方多项式逼近:采用{1, x, x2 ,…,xn }作为 基函数,由此生成的多项式对f(x)进行平方逼近. • 一般情况下:采用线性无关的连续函数 … , (x)} { ( x ) , (x),
设 ρ (x)是区间[a, b]上的非负函数, 若 x kρ (x)dx存在, k 0, 1, 2, … ;
a
(2) 对于[a, b]上的非负连续函数 g(x), 若
b a
g(x)ρ (x)dx 0, 则必有 g(x) 0, x [a, b];
权函数的 非0性质
就称 ρ (x)为[a, b]上的权函数。
a ] dx
j0 j j k
n
0
a
j0 j
a
ρ(x) j (x)k (x)dx
b
a
ρ(x)f(x)k (x)dx
(
j0
n
k
, j )a j (f, k ), k 0,1,..., n (3.3)
展开成方程组形式:
(0 , 0 )a0 (0 , 1 )a1 (0 , n )an (f, 0 ) (1 , 0 )a0 (1 , 1 )a1 (1 , n )an (f, 1 ) (n , 0 )a0 (n , 1 )a1 (n , n )an (f, n )
逼近误差公式证明
|| δ (x) ||2 || f(x) s (x) || (f(x) s (x), f(x) s (x)) 2
(f(x), f(x)) (f(x), s (x)) - (s (x), f(x)) (s (x), s (x))
只需证明 (s(x), s(x)) (s(x), f(x)) 即:
Home
曲线拟合的最小二乘法
3.4. 曲线拟合的最小二乘法
若已知f(x)在点xi(i=1,2,…,n)处的值yi,便可根据插值
原理来建立插值多项式作为f(x)的近似。
但在科学实验和生产实践中,往往会遇到下述情况: 1) 节点上的函数值是由实验或观测得到的数据,带有 测量误差,若要求近似函数曲线通过所有的点 (xi,yi),就会使曲线保留着一切测试误差; 2) 当个别数据的误差较大时,插值效果可能不理想;
(0 , 0 ) (0 , 1 ) a0 (f, 0 ) (f, 1 ) (1 , 0 ) (1 , 1 ) a1 1 1 2 a0 (f, 0 ) 1 1 (f, 1 ) a1 2 3