第四章 无约束最优化方法
合集下载
第四章常用的无约束优化方法

教学重点
1.鲍威尔法 2.梯度法 3.牛顿法
2
机械优化设计
概述
一、无约束优化方法的数学模型 有约束优化问题模型
L min F ( X * ) = F ( x1,x2, ,xn ), X ∈ R n D : g j ( X ) ≥ 0 j = 1,2,L, m hk ( X ) = 0 k = 1, 2,L, l
12
机械优化设计
一、Powell基本算法 Powell基本算法 1)开始采用坐标轴方向; 开始采用坐标轴方向; 2)每轮迭代产生一个新方向取代原来的第一 方向, 轮迭代后可产生n个彼此共轭的方向; 方向,n轮迭代后可产生n个彼此共轭的方向; 若目标函数为正定二次函数, 3)若目标函数为正定二次函数,n轮结束后 即可到达最优点。 即可到达最优点。
r (k ) r (k ) r (k ) r (k ) r (k ) r (k ) S 1 , S 2 , . . . , S m -1 , S m + 1 , . . . , S n , S n + 1 ,
22
第k+1环的方向组为:
机械优化设计
给定X 给定 0,Si=ei i=1,2,…n, ε
Powell 修正算法
K=0 i=1 方向搜索得一维最优点X 自Xi-1始,沿Si方向搜索得一维最优点 i
N
若powell法中不 需要换向,则 是否仍为共轭 方向法? 检查两次前后 sn+1是否对函数 的海塞矩阵共 轭即可。
Y
i< n Xn-X0 ≤ε
i=i+1
Y
输出X*=Xn 输出 F*=F(X*) ( )
x2
x2
o
x1
(2)等值线为如图脊线时--无效 (2)等值线为如图脊线时--无效 -o
无约束优化方法

为了使目旳函数值沿搜索方向 f (xk ) 能够取得最大旳
下降值,其步长因子
应取一维搜索旳最佳步长。即有
k
f
( xk1)
f [xk
akf
( xk )]
min a
f [xk
af
( xk )]
min, ( ) a
根据一元函数极值旳必要条件和多元复合函数求导公式,得
'( ) f [ xk kf ( xk )] T f ( xk ) 0
第四章 无约束优化措施
第一节 概 述
数值解法:是从给定旳初始点x0出发,沿某一搜索方向d0
进行搜索。拟定最佳步长α,使函数值沿d0方向下降最大。 依此方式按下述公式不断进行,形成迭代旳下降算法。
x,k1 xk k d k (k 0,1, )
1)选择迭代方向即探索方向; 2)在拟定旳方向上选择合适步长迈步进行探索。 多种无约束优化措施旳区别就在于拟定其搜索方向dk旳措 施不同。所以搜索方向旳构成问题是无约束优化措施旳关键。
4)若 | xk1 xk | ,则停止迭代,
得最优解x* xk1;
否则,k k 1,转到第二步。
第四章 无约束优化措施
第二节 最速下降法
例:用最速下降法求目标函数 ,
f (x) x12 25x22
的极小点。
xk1 xk kf (xk )(k 0,1, )
第四章 无约束优化措施
解 取初始点 x0 [2,2]T f ( x0 ) 104
第四章 无约束优化措施
第四节 共轭方向及共轭方向法 •共轭方向旳形成
•格拉姆-斯密特向量系共轭化旳措施
i
d i1
vi1
,
dr i 1, r
最优化计算方法(工程优化)第4章

f (x*) 0, 2 f x 正定,则 x 为 f (x) 的严格局部极小
点。
如果 2 f x 负定,则 x 为 f (x) 的严格局部极大点。
无约束优化的最优性条件----凸优化的一阶条件
定理(一阶充要条件)
设 f : Rn R 是凸函数且在 x 处连续可微,则 x 为 f (x)的全局极小点的充要条件是 f (x*) 0.
f (x p) f (x)+f (x)T p o( )
P是什么方向时,函数值 f (x p) 下降最快?也就是
p是什么方向时,f (x)T p 取得最小值?
f (x)T p f (x) p cos(f (x), p)
当 cos(f (x), p) 1 时,f (x)T p 最小,最小值为
令 f x 0, 即:
利用一阶条件 求驻点
利用二阶条件 判断驻点是否 是极小点
x12 1 0
x22
2x2
0
得到驻点: 1 1 1 1
x1
0 ,
x2
2 ,
x3
0
,
x4
2
.
无约束优化的最优性条件
函数 f x 的Hesse阵:
2
f
x
2x1
0
0
2
x2
2
利用二阶条件 判断驻点是否 是极小点
2 0
0 2
的行列式小于0;
x1, x4是鞍点;
2
f
x2
2 0
0
2
是正定矩阵;
x2 是极小点;
2
f
x3
2 0
0 2
是负定矩阵;
x3 是极大点。
• 对某些较简单的函数,这样做有时是可行的;
点。
如果 2 f x 负定,则 x 为 f (x) 的严格局部极大点。
无约束优化的最优性条件----凸优化的一阶条件
定理(一阶充要条件)
设 f : Rn R 是凸函数且在 x 处连续可微,则 x 为 f (x)的全局极小点的充要条件是 f (x*) 0.
f (x p) f (x)+f (x)T p o( )
P是什么方向时,函数值 f (x p) 下降最快?也就是
p是什么方向时,f (x)T p 取得最小值?
f (x)T p f (x) p cos(f (x), p)
当 cos(f (x), p) 1 时,f (x)T p 最小,最小值为
令 f x 0, 即:
利用一阶条件 求驻点
利用二阶条件 判断驻点是否 是极小点
x12 1 0
x22
2x2
0
得到驻点: 1 1 1 1
x1
0 ,
x2
2 ,
x3
0
,
x4
2
.
无约束优化的最优性条件
函数 f x 的Hesse阵:
2
f
x
2x1
0
0
2
x2
2
利用二阶条件 判断驻点是否 是极小点
2 0
0 2
的行列式小于0;
x1, x4是鞍点;
2
f
x2
2 0
0
2
是正定矩阵;
x2 是极小点;
2
f
x3
2 0
0 2
是负定矩阵;
x3 是极大点。
• 对某些较简单的函数,这样做有时是可行的;
第4章 无约束优化方法

求
令
4 S 0 f X 0 2
0 则有 X 1 X 0 0 S 0 1 0 4 1 2 1 2
1 4
0
f X 1 1 4 0 2 1 2 0 2 1 4 0 1 2 0 4 1 4 0 f 0
因
5
还需继续迭代
(2)第二次迭代 同理有
1 1 1 f X , S 2 2 2 1 2 1 2 1 1 X X 1 S 1 0.5 2 0.5 2 1
4.2.3 变尺度法
基本思想: (1) 用简单矩阵代替二阶导数矩阵的逆矩阵 (2) 用坐标变换简化目标函数 引入矩阵变换U,令 X X k UY 代入式泰勒展开式得
T 1 T T 2 k k Y Y U f X UY f X UY f X k 2
2 f X k
S 2 f X k f X k
1
由此构成的算法称基本牛顿法,Sk 称牛顿方向。
分析可知: ⑴ 对于正定二次函数,Xk+1是精确极小点,方向 Sk 是直指函数的极小点。 ⑵ 用基本牛顿法求解正定二次函数时,无论从哪个初始 点出发,计算所得牛顿方向直指极小点,而且步长等于1。 ⑶ 对于一般非线性函数,点Xk+1只是原函数的一个近似极 小点。故将此点作为下一个迭代Xk+1。 ⑷ 但是对于非正定函数,由上式得到 的点Xk+1,不能始终保持函数的下降性,
1 0 0
04 无约束优化方法

F 1A C
向上的极小点,而非原函数的 -2 -1
0
1
2
3
x1
极小点。
解决办法:阻尼牛顿法。
7
二.阻尼牛顿法
1.迭代公式
沿牛顿方向-[H(X(k))]-1f(X(k))作一维搜索,迭代公式:
X (k1) X (k ) k [H ( X (k ) )]1f ( X (k ) )
其中λ k使
f ( X (k ) k s(k ) ) min f ( X (k ) k s(k ) )
S1
1 0 ,S2
0 1
正交不共轭
19
2.正定二次函数的特点
(1)正定二次二元函数的等值线是椭圆线簇,椭圆线簇的中心
即目标函数的极值点。
(2)过同心椭圆线簇中心作任意直线,此直线与诸椭圆交点处
的切线相互平行。
反之过两平行线与椭圆切点X(a)和
x2
X(b)的连线必通过椭圆的中心。因此
只要沿方向X(a)—X(b)进行一维搜索,
1、坐标轮换法具有程序简单,易于掌握的优点,但它的计
算效率较低,因此它虽然步步在登高,但相当于沿两个垂直方
向在爬山,路途迂迴曲折,收敛很慢,因此它适用于维数较低
(一般n<10)的目标函数求优。
2、有“脊线”的目标函数等值线的情形,沿坐标轴方向函数值
不一定下降。
脊线
x2
A
p
0
x1
13
五、练习 用最优步长法求解 f (X)=(x1-2)4+(x1-2x2)2的极小点。 初始点X(0)=[0,3]T,要求迭代一轮。 请注意沿坐标轴移动的方向。
22
二、迭代过程
以二维问题为例: ① X(0)
第四章 无约束方法

e2
e3
x1
x2
Powell修正算法:在构成第K+1 2015-6-23 18 法构造基本方向组。
二)Powell修正算法 2)Powell对基本算法的改进
在获得新方向构成新方向组时,不是轮换 地去掉原来的方向,而是经判别后,在n+1个 方向中留下最接近共轭的n个方向。 这样可以避免新方向组中的各方向出现 线性相关的情形,保证新方向组比前一方 向组具有更好的共轭性质。
x3
o
X0 e1 e2
s
e3
s2
e3,s1,s2
x1
x2
s3
Xn
15
2015-6-23
补充:共轭方向的基本概念
1)定义
设A为n*n阶正定对称矩阵, S1 , S 2 是两个n维 向量,若存在 T S1 AS2 0 则称 S1和S 2对A共轭。
例:
4
2 1 2
2 2 6 4 3
3
无约束优化问题是:
求n维设计变量 使目标函数
x [ x1 x2
f ( x ) min
xn ]
T
min f ( x)
x Rn
目前已研究出很多种无约束优化方法,它们的 主要不同点在于构造搜索方向上的差别。 (1)间接法(导数法)——确定搜索方向时用到一 阶或(和)二阶导数的方法。如梯度法、(阻尼) 牛顿法、变尺度法、共轭梯度法等。 (2)直接法——其搜索方向直接取定或由计算目标 函数值所得的信息来确定;即不使用导数信息,如 坐标轮换法、鲍威尔法等。
结 束
X0=X*
N
F3<F
1
Y
求Δ 及方向标号m
N Y
最优化方法_chapter4 无约束最优化方法

预备知识
本章开始讨论多维无约束最优化问题:
min f(X) 其中 f:Rn→R1.这个问题的求解是指在Rn中找一点X*, 使得对于任意的X∈Rn 都有,f(X*)≤f(X) ,成立,则点X* 就是问题的全局最优点。但是,大多数最优化方法只能求 到局部最优点,即在Rn中找到一点X*,使得f(X*)≤f(X)在 X*的某个领域中成立. 这个矛盾对于实际问题一般容易解决.根据问题的实 际意义多半可以判定用优化方法求出的局部最优解是否为 全局最优解.而在理论上这是个比较复杂的问题,本教材 不涉及.
✓ 有些无约束优化方法只需略加处理,即可用于求解约束 优化问题.
预备知识
无约束优化理论发展较早,比较成熟,方法也很 多,新的方法还在陆续出现.把这些方法归纳起来可 以分成两大类:
✓ 一类是仅用计算函数值所得到的信息来确定搜索方向, 通常称它为直接搜索法,简称为直接法
✓ 另一类需要计算函数的一阶或二阶导数值所得到的信息 来确定搜索方向,这一类方法称为间接法(解析法)
解:应沿由热变冷变化最剧烈(变化率最大)的地方 (即梯度方向)爬行。
设函数z=f (x,y)在点P(x,y)的某一邻域U(P)内有定义。
自点P引射线l。设x轴正向到射线l的转角为θ,并设
Pˊ(x+∆x,y+∆y) 为l上的另一点且Pˊ∈U(P).
考虑:limρ→0 (f(x+∆x,y+∆y)-f(x,y))/ρ。若此极限存在
特别是对于等值线(面)具有狭长深谷形状的函数, 收敛速度更慢.其原因是由于每次迭代后下一次搜索方 向总是与前一次搜索方向相互垂直,如此继续下去就产 生所谓的锯齿现象.
即从直观上看,在远离极小点的地方每次迭代可能 使目标函数有较大的下降,但是在接近极小点的地方, 由于锯齿现象,从而导致每次迭代行进距离缩短,因而 收敛速度不快.
四常用无约束最优化方法(精品PPT)

(3)用终止准则检测是否满足:若满足,则打印最优
解 X k 1 ,f ( X k1 ) ,结束;否则,置 k k 1,转
(2).
,
最速下降法算法流程如图4.2所示.
Company Logo
最速下降法算 法流程如图所 示.
图4.2
开始 选定X0
f0 f (X0) g0 g(X0)
X ls(X 0 ,g0 )
Company Logo
§4.1 最速下降法
对于问题(4.1)为了求其最优解,按最优化算法的基
本思想是从一个给定的初始点
X
出发,通过基本迭代公
0
式 X k1 X k tk Pk,按照特定的算法产生一串
点列{X k } ,如果点列收敛,则该点列的极限点为问题
(4.1)的最优解.
一、最速下降法基本原理
1个迭代点
X
k
,即
1
X k1 X k tk f ( X k ) ,
其中步长因子 tk 按下式确定
也可记为
fin
t
f
(Xk
tf
(Xk
))
,
X k1 ls( X k , f ( X k )) . (4.3)
显然,令k 0, 1, 2, 就可以得到一个点列 X0, X1, X2 ,
g( X ) AX b ,(4.5)
因此,
gk g( X k ) AX k b.(4.6)
现在从X k 出发沿 g k 作直线搜索以确定 X k1 ,于是
X k1 X k tk gk , (4.7) 其中tk 是最优步长因子.
Company Logo
又因式(4.2),有 g( X k1 )T gk 0 ,再利用式
解 X k 1 ,f ( X k1 ) ,结束;否则,置 k k 1,转
(2).
,
最速下降法算法流程如图4.2所示.
Company Logo
最速下降法算 法流程如图所 示.
图4.2
开始 选定X0
f0 f (X0) g0 g(X0)
X ls(X 0 ,g0 )
Company Logo
§4.1 最速下降法
对于问题(4.1)为了求其最优解,按最优化算法的基
本思想是从一个给定的初始点
X
出发,通过基本迭代公
0
式 X k1 X k tk Pk,按照特定的算法产生一串
点列{X k } ,如果点列收敛,则该点列的极限点为问题
(4.1)的最优解.
一、最速下降法基本原理
1个迭代点
X
k
,即
1
X k1 X k tk f ( X k ) ,
其中步长因子 tk 按下式确定
也可记为
fin
t
f
(Xk
tf
(Xk
))
,
X k1 ls( X k , f ( X k )) . (4.3)
显然,令k 0, 1, 2, 就可以得到一个点列 X0, X1, X2 ,
g( X ) AX b ,(4.5)
因此,
gk g( X k ) AX k b.(4.6)
现在从X k 出发沿 g k 作直线搜索以确定 X k1 ,于是
X k1 X k tk gk , (4.7) 其中tk 是最优步长因子.
Company Logo
又因式(4.2),有 g( X k1 )T gk 0 ,再利用式
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
的唯一极小点. (2)当xk 是无限点列时, 收敛到 f x 的唯一极小点.
阻尼牛顿法收敛定理
定理3: 设 f x 二阶连续可微, 又设对任意的x0 R n , 存在常数m 0, 使得 f x 在 L x f x f x0 2 T 2 上满足: f x m , R n , x Lx0 则在Wolfe不精确线搜索条件下,阻尼牛顿法 产生的点列xk 满足:
T d0 9,9 d1 7.2, 7.2 d0 d1 0 T T
收敛性分析 定理1: 设f x 在 L x R f x f x
n 0
上存在且一致连续, 则最速下降法产生的序列 满足或者对某个 k 有 g k 0, 或者 f xk ,
T k
Step6: 若 g k 1 2 , 停; Step7: 令 k k 1, 转Step1; Step8: 令d k g k , 转Step5; Step9: 令 d k d k , 转Step5.
例3: 用带保护的牛顿法求解:
min f x x x1 x2 1 x2
n
Step3: 否则计算 Gk , 并且求解方程
Gk d k g k , 得出d k .
Step4: 令 xk 1 xk d k , 转步2.
பைடு நூலகம்
例1: 用牛顿法求解:
1 2 9 2 min f x x1 x2 2 2 x1 1 解: g x 9 x Gx 0 2
充分靠近 x * 时, 对于一切 k , 牛顿迭代有意义, * 迭代序列xk 收敛到 x ,并且具有二阶收敛速度.
牛顿法优点
(1) 如果 G * 正定且初始点选取合适, 算法 二阶收敛. (2) 对正定二次函数,迭代一次就可以得到 极小点.
牛顿法缺点
(1) 对多数问题算法不是整体收敛的. (2) 每次都需要计算Gk , 计算量大. (3) 每次都需要解 Gk d g k ; 方程组有时奇异或病态的, 无法确定d k , 或 d k 不是下降方向. (4) 收敛到鞍点或极大点的可能性并不小.
T 显然当 cos 1 时, k d k 取极小值. g 因此: d k g k
结论: 负梯度方向使 f x 下降最快, 亦即最速 下降方向.
最速下降法算法
Step1: 给出 x0 R ,0 1, k : 0 Step2: 计算f xk , 如果 f xk , 停.
k
证明: 用以上的结论:
1 f xk f xk 1 gk 2M
2
最速下降法优点
(1) 程序设计简单,计算量小,存储量小, 对初始点没有特别要求. (2) 有着很好的整体收敛性,即使对一般的 目标函数,它也整体收敛.
最速下降法缺点
(1) 最速下降法是线性收敛的,并且有时是 很慢的线性收敛. 原因: d k g k 仅反映 f x 在 xk 处 ① 的局部性质. T g k 1d k 0 , 相继两次迭代中搜索 ② 方向是正交的.
小结
(1) 最速下降法是基本算法之一,而非有效 的实用算法. 最速下降法的本质是用线性函数来近似 目标函数, 要想得到快速算法,需要考 虑对目标函数的高阶逼近.
§ 4.2 牛顿法
基本思想
利用目标函数 f x 在点 xk 处的二阶Taylor 展开式去近似目标函数, 用二次函数的极小点 去逼近目标函数的极小点.
Gk 2 f xk 满足Lipschitz条件,即存在
0, 使得对于所有1 i, j n 有:
Gij x Gij y x y , x, y R n
1
其中 Gij x 是海色阵 Gk 的 i, j 元素. 则当 x0
9 0.8k , k 1, 2, xk k 1 xk 1 x* xk 1 lim 0.8 分析: lim (1) k * k xk xk x
因此: 最速下降法是整体收敛的, 且是线性收敛的. (2) 两个相邻的搜索方向是正交的.
算法构造
问题: 如何从 xk xk 1 ? 海色阵 Gk f xk 正定.
2
x 设 f x 二阶连续可微, k R , g k f xk ,
n
T f x f xk x xk qk x f k g k x xk 1 T x xk Gk x xk 2 因为Gk 正定, qk x 有唯一极小点, 则 用这个 极小点作为 xk 1.
0 x1 , f x1 0 1 1 0 1 第二次迭代: g1 , G1 0 1 2 2 1 而:d1 G1 g1 1 2 2 T 使 g1 d1 2 0, 故令 d1 1 1 沿d1 进行线搜索, 得出1 0.3479422, 0.6958844 于是: x2 1.3479422 f x2 0.5824451 7 0.73 10 此时: g 2 0
特别当:d k g k
T gk gk k T g k Ggk
例1: 用最速下降法求解:
1 2 9 2 min f x x1 x2 2 2 x1 1 解: g x 9 x Gx 0 2 x0 9, 1
g k 0.
证明: 对于最速下降法, k 0,由以上定理立得.
收敛性分析
定理2: 设 f x 二次连续可微, 2 f x M , 且 其中 M 是个正常数, 对任何给定的初始点 x0 , 最速下降算法或有限终止, 或者lim f xk ,
k
或者 lim g k 0.
lim f xk 0
且 xk 收敛到 f x 的唯一极小点.
k
例2: 用阻尼牛顿法求解:
min f x x x1 x2 1 x2
4 1 2
x0 0, 0
T
0 0 1 解: g 0 G0 2 1 2 2 1 1 显然 G0 不是正定的, 但:G0 1 0 2 1 d 于是, 0 G0 g 0 0 沿方向 d 0 进行线搜索,f x0 d 0 16 4 1,
阻尼牛顿法收敛定理
定理2: 设 f x 二阶连续可微, 又设对任意的x0 R n , 存在常数m 0, 使得 f x 在 L x f x f x0 2 T 2 上满足: f x m , R n , x Lx0 则在精确线搜索条件下, 阻尼牛顿法产生的点列 xk 满足: (1) 当xk 是有限点列时, 其最后一个点为 f x
9 1 x1 x0 G g 0 1 0
1 0
x0 9, 1
0 9
0 9
1
T
x 0,0
*
T
9 0 * x 9 0
牛顿法收敛定理
定理1: 设 f x 二次连续可微, * 是 f x 的局 x 部极小点, f x* 正定. 假定 f x 的海色阵
阻尼牛顿法算法
Step1: 给出 x0 R ,0 1, k : 0 Step2: 计算f xk , 如果 f xk , 停.
n
Step3: 否则计算 Gk , 并且求解方程
Gk d g k , 得出d k .
Step4: 沿 d k 进行线搜索, k . 得出 Step5: 令 xk 1 xk k d k , 转Step2.
得其极小点 0 0. 从而迭代不能继续下去.
带保护的牛顿法算法
x0 R n , 1 , 2 , k : 0 给出
Step1: 若 Gk 为奇异的,转Step8,否则, Step2: 令 d k Gk1 g k , T g k d k 1 g k d k , 则转Step8,否则, Step3: 若 Step4: 若 g d k 1 g k d k , 则转Step9,否则, Step5: 沿方向 d k 进行线搜索, 求出 k , 并令 xk 1 xk k d k .
所以要求: qk xk 1 0
即:Gk xk 1 xk g k 0 因此: xk 1 xk G g
1 k k
这就是牛顿法迭代公式. 注: 这里 k 1, d k G g .
1 k k
牛顿法算法
Step1: 给出 x0 R ,0 1, k : 0 Step2: 计算f xk , 如果 f xk , 停.
第四章 无约束最优化方法
§ 4.1 最速下降法
问题提出
问题: 在点 xk 处, 沿什么方向 d k , f x 下降最快? 分析:f xk dk f xk g d o dk 0
T k k
考查: g d g k d k cos
T k k
4 1 2
x0 0, 0
T
0 0 1 解: g 0 G0 2 1 2 2 1 1 显然 G0 不是正定的, 但:G0 1 0 2 1 d 于是, 0 G0 g 0 0 0 T g d 因为, 0 d 0 0, 故令, 0 g 0 2 , 1 沿 d 0 进行线搜索得: 0 , 2
Gill-Murray稳定牛顿法
当 Gk 正定时, 总有Cholesky分解:
Gk Lk Dk LT k
当 Gk 不是正定时, Gill-Murray(1974)提出了 使得: 强迫正定的修改Cholesky分解,