最优化方法第二章_线搜索算法_最速下降法

合集下载

最速下降法简介

的梯度，记作
函数的梯度是一个向量，
在
处的梯度向量为：
梯度方向是函数在该点增长最快的方向，负梯度方向是函数在该点减少最快的方向。如下示意图：
令 p ( k ) ( x ( k ) ) ， k 为在 x
(k )
点沿最速下降
方向 p ( k ) 所走的距离，最优步长。可有最速下降法的迭代公式：
x(2) x(1) 1 p1 ( 36 8 T , ) 31 31
13 62
关于相邻连个梯度的关系
n 1 1 n n 函数 : R R ； ( x) ( Ax, x) (b, x) aij xi x j b j x j 2 2 i 1 j 1 j 1
p1 f ( x (1) ) (4, 6)T x(1) p1 (2 4 ,1 6 )T
( ) f ( x(1) p1 ) (2 4 )2 3(1 6 ) 2
min ( x)

' ( ) 8(2 4 ) 36(1 6 ) 0 1
谢谢

最速下降法基本思想
从当前点出发，取函数在该点处下降最快的方向作为搜索方向。任一点的负梯度方向是函数值在该点下降最快的方向。将n维问题转化为一系列沿负梯度方向用一维搜索方法寻优的问题。

定义函数：
，
可微。
梯度的概念：是定义在量为即上的可微函数，称以的 n 个偏导数为分量的向
( p ( k 1) , p ( k ) ) (b A( x ( k ) p ( k ) ), p ( k ) ) ( p ( k ) , p ( k ) ) k ( Ap ( k ) , p ( k ) ) 0

第二章最优化方法——直线搜索解析

上述过程的关键是开始时怎样选择步长h ，如选得太小, 需迭代多次才能找到搜索区间，而若选得太大，虽然一次就能找到搜索区间，但给下一步找极小点过程增加了负担。
下面将介绍选择初始步长h的一种方法。
设(t)具有连续二阶偏导数，且(t0 ) 0,(t0 ) 0 。现在
要从t0出发确定一个搜索区间。在t0附近将 (t)二次
设已获得迭代点Zk，并按某种规则选定了向量Pk 为下降方向，并设 Pk 1 ，则下一迭代点Zk+1由下述直线搜索确定的：
的极小点必在（a,t1)中。此时有t*≤t1<t2, 根据单谷函数定义知： (t1) (t2 ) 矛盾。故（t1,b)是搜索区间，同样可证前种情形。
单谷函数的这一性质可用来将搜索区间无限缩小，以至求到极小点。
本章下面就介绍的直线搜索法，第一步就是要找一个初始搜索区间，下面就介绍一种有效的找初始搜索区间的方法。
Taylor
展开
(t0
)(t
t0
)
1 2
(t0
)(t
t 0)2
(1)
令 ~(t) 0,则(t0) (t0)(t t0) 0(2)
由此解得 ~t t0 (t0 ) / (t0 ) …..(3)
这是~(t0 )的唯一极小点，可作为 (t)极小点t*的一个近但似~t 。中因要此计想算到二用阶导数~t 。t一0 般作来为说初计始算步二长阶h。导数比较困
0 μν γ
ωt
（a)
0μ ν γ ω t (b)
0 t0-h t0 t0+ht (c)
因此只需比较ν和区间[ν，ω]的中点
的对应函
2
数值，即可将区间[μ，ω]缩短1/3。由图(a),(b)可

最优化之最速下降法PPT课件

那么目标函数 f(x)在Xk处沿方向dk下降的变化率为
5
最速下降法的方向选择
LLOOGGOO
lim lim fxkdkfxk gkTdk
0Leabharlann 0gkTdkgk dk cos
其中为gk与dk的夹角。要使得变化率最小，只有当cos值为-1 时，才能达到，也即dk应取得负梯度方向。
J (a)
J (a)
11
开始
给定初始点， x 0 E n ， 0
程序图
LOGO
求 k 使其满足
m i0 nf(xkpk)f(xkkpk)
k : 0
计算 pk f (xk)
令
xk1xk kpk
是
pk
否
输出： xmin x k
结束
12
matlab仿真实例
LOGO
13
matlab仿真实例
LOGO
14
最速下降法的优缺点
LOGO
• 由于沿负梯度方向目标函数的最速下降性，很容易使人们误认为负梯度方向是最理想的搜索方向，最速下降法是一种理想的极小化方法。必须指出的是，某点的负梯度方向，通常只是在该点附近才具有这种最速下降的性质。在一般情况下，当用最速下降法寻找极小点时，其搜索路径呈直角锯齿状，在开头几步，目标函数下降较快；但在接近极小点时，收敛速度长久不理想了。特别适当目标函数的等值线为比较扁平的椭圆时，收敛就更慢了。优点是：程序简单，计算量小；并且对初始点没有特别的要求。
7
•由式 dkf xk得，
LOGO
fx k 1T fx k0
即新点xk+1处的梯度是正交的，也就是说，迭代点列所走
的路线是锯齿型的，故收敛速度是很慢的。

第二章最优化方法——直线搜索

单谷函数的这一性质可用来将搜索区间无限缩小，以至求到极小点。
本章下面就介绍的直线搜索法，第一步就是要找一个初始搜索区间，下面就介绍一种有效的找初始搜索区间的方法。
算法1：（搜索区间的确定）已知目标函数 (t ) 。
〈1〉选择初始点t0和步长 h.
〈2〉比较(t0 )和(t0 h) 的值，转<3>，<4> 〈3〉若 (t0 ) (t0 ，h)比较 (t0)和(t0 ，h) 转 <5>，
这是~(t0 )的唯一极小点，可作为 (t)极小点t*的一个近但似~t 。中因要此计想算到二用阶导数~t 。t一0 般作来为说初计始算步二长阶h。导数比较困
难，而一阶导数即使较困难，也可用差分近似，因此，要想办法避免二阶导数的计算。
假若似设对。某(个t)的~t极，小使值得可~以(~t估) 计出e ，来则，将如为~t作为e ，t*即的一 (个t*近) e
若仍然有 a t0,b t1，则取 t1 0 t2 t1 t
（或将t 放大一倍，即取 t2 t1 2t ）若t2 0则以
t1, t2 作区间[a,b]；否则继续下去。
对于 t0 0 的情况，可类似于上面在 t0 左侧取点。
若t1<t3< t2,也可将搜索区间 t1, t2记为 t1, t3, t2
单谷函数的性质：
设 a,b是单谷函数极小点的一个搜索区间。在
(a,b)上任取两点t1，t2，使t1< t2,若(t1) (t2 ) 则a, t2
是 (t) 极小点的一个搜索区间；若(t1) (t2 ) ，则t1, b
(t0 (2k 1)h), k 1,2,... ，直到有某个m（≥1）使 (t 0(2m1 1)h) (t0 (2m 1)h) (t0 (2m1 1)h)

最速下降法

0 为一维搜索最佳步长，应满足极值必要条件
0 0 f x1 min f x f x
min 2 4 25 2 100 min
2 2

0 8 2 4 5000 2 100 0
(k ) (k ) d x 3.若 ,则停止计算;否则,从出发,沿 d ( k ) 进行
,使
f ( x ( k ) k d ( k ) ) min f ( x ( k ) d ( k ) )
0
4.令 x ( k 1) x ( k ) k d ( k ) ,置 k : k 1,转步2..
从而算出一维搜索最佳步长
626 0 0.02003072 31252 及第一次迭代设计点位置和函数值
1.919877 2 4 0 x 2 2 100 0 0.3071785 10
1
f x1 3.686164
经过10次迭代，得到最优值
4 计算框图
x(1), ε >0, k=1
k=k+1
|| ▽f(x(k) ) ||< ε? No d(k)= －▽f(x(k) )
Yes stop. x(k) –解
min f(x(k)+λ d(k)) s.t. λ >0 得 x(k+1)=x(k)+λkd(k) 解
P37 例 3-1
2 例：求目标函数 f x x12 25x2 的极小点。
f ( x ( k ) k d ( k ) ) min f ( x ( k ) d ( k ) )
0
f ( x( k ) )T f ( x( k ) ) 最优步长法： k f ( x( k ) )T H ( x( k ) )f ( x( k ) )

最优化：下降算法与线性搜索

f (x)T d -f (x)T Hf (x) 0 所以由(1)知, d -Hf (x)是函数f在x处的一个下降方向
利用下降方向，我们很容易将一元函数的极值条件进行推广而得到判别多维无约束问题最优解的条件
我们先来回忆一下一元函数的极值条件(关于极小值点）
xR
一阶必要条件： f ' (x* ) 0
注意 : 定理2.1.4的条件不是必要的.如函数 f (x) x14 x24
显然x* (0,0)T 是严格局部极小点(最小点), 但2 f (x*)不正定
例2.1.1 利用极值条件求解下面的问题
min
f
(x)
1 3
x13
1 3
x23
-
x12
-
x2
解：f
( x)
x12 x22
2 x1 -1
,
2
f
( x)
2
x1 0
2
由一阶必要条件f (x) 0, 得稳定点：
0 2x2
x (1)
10 ,
x(2)
-01,
x ( 3)
2 1
,
x
(
4
)
-21
相应的Hessian 矩阵为：
ቤተ መጻሕፍቲ ባይዱ
不定负定 2
f
(
x
(1)
)
-2 0
20 ,
2
f
(
x (2)
)
-2 0
-02 ,
正定不定 2
f
(
x
(3)
)
2 0
20 ,
证明：() 由泰勒展开, 我们有
f (x d ) f (x) f (x)T d o( ) 由于f (x)T d , 则当且充分小时,f (x)T d o( ) 0 从而存在一个 , 使得

最速下降法原理及例题实例

求单变量极小化问题：
min f ( x 0 + tp 0 ) = min f (44t , 3 − 24t )
t ≥0 t ≥0
= min(44t − 2)4 + (92t − ቤተ መጻሕፍቲ ባይዱ)2
t ≥0
的最优解 t 0 ，由 0.618 法可得 t 0 = 0.06 ，于是
X 1 = x 0 + t 0 p 0 = (2.70,1.51)T ∇f ( X 1 ) = (0.73,1.28)T ∇f ( X 1 ) = 1.47 > ε
T T
解：计算目标函数的梯度和 Hesse 阵
设d
(k )
= [ d1 , d 2 ] ， ∇f ( X ( k ) ) = [ g1 , g 2 ] 得到精确一维搜索步长 αk = g1d1 + g 2 d 2 3d + d 2 2 − 2d1d 2
2 1
取X
(1)
= (0, 0)T ，则 ∇f ( X (1) ) = [ −2, 0] ，所以 d (1) = −∇f ( X (1) ) = [ 2, 0 ] ，
故
f ( x) = f ( X ( 2) + λ d (2) ) = (λ − 1) − (λ + 1) + 2(λ − 1)2 + 2(λ − 1)(λ + 1) + (λ + 1) 2 = 5λ 2 − 2λ − 1 = ϕ 2 (λ )
' 令 ϕ2 (λ ) = 10λ − 2 = 0 可得 λ2 =
一、最速下降法基本原理
(一) 无约束问题的最优性条件
无约束问题的最优解所要满足的必要条件和充分条件是我们设计算法的依据，为此我们有以下几个定理。定理 1 设 f : R → R 在点 x ∈ R 处可微。若存在 p ∈ R ，使

最速下降法

1. 算法原理最速下降法的搜索法向是目标函数的负梯度方向，最速下降法从目标函数的负梯度方向一直前进，直到到达目标函数的最低点。

已知目标函数在()k X 点的梯度为：()()()()()()()()12...Tk k k k nf X f X f X f X x x x ⎡⎤∂∂∂⎢⎥∇=∂∂∂⎢⎥⎣⎦当求目标函数的最小点时，由于函数沿负梯度方向下降最快，故在()k X 点的探索方向应取该点的负梯度方向，即()()()()()k k k f X S f X∇=-∇显然，()k S 为单位向量。

这样第1k +次迭代计算所得的新点为()()()()(1)()()()()()k k k k k k k k f X X X S X f Xαα+∇=+=-∇负梯度仅给出了最优化方向，而没有给出步长的大小，所以可能有各种各样的最速下降的过程，它们依赖于()()()k k f Xα∇的大小。

步长()k α有两种取法：一种方法是任意给定一个初始步长，使满足条件：()()()()()()k k k k f X S f X α+<另外一种方法是沿负梯度方向做一维探索，以求解一维最优化问题的最优步长α，即对目标函数极小，以得到最优步长：()()()()()0min ()()k k k k k f X S f X S ααα>+=+以此最优步长作为由()k X点出发沿该点的负梯度方向探索的步长()k α。

这种方法的迭代计算的收敛性，可用以下三式中的任一式或二式作为准则来进行判断：()()()()()1()(1)2()()(1)3k k k k k k f X f X f X f X X Xεεε--⎧∇≤⎪⎪-⎪≤⎨⎪⎪-≤⎪⎩2. 算法步骤用最速下降法求无约束多维极值问题min (),nf x x R ∈的算法步骤如下：（1）取初始点(0)x ，精度0ε>，令0k = （2）计算搜索方向()()()k k vf x =-∇，其中()()k f x ∇表示函数()f x 在点()k x 处的梯度；（3）若()k v ε≤，则停止计算；否则，从()k x 出发，沿()k v 进行一维搜索，即求k λ，使得()()()()0()min ()k k k k k f xv f x v λλλ≥+=+。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

f x1 , x2 c, c>0,
2
改写为：
x12 2c 1

2 x2

2c 2
2
1
二、最速下降法
x2
这是以
2c
1
和
2c
2
为半轴的椭圆
2c
2c
2
2
从下面的分析可见两个特征值的相对
x1
大小决定最速下降法的收敛性。
（1）当 1 2 时，等值线变为圆
2 2
4 f x , 2
2 x1 2 x2 4 f ( x) , 2 x1 +4x2
4 d = f x , 2
0 0
=40 2 20 3 令 0= ' ( ) 80 20, 得 0 =1/4,
一
一维搜索
二三四
下降算法
五
最速下降法 Newton法共轭梯度法
多尺度法（拟Newton法）
二、最速下降法假设 f 连续可微，取线搜索方向
k
d f ( x )
k
步长k 由精确一维搜索得到。从而得到第 k+1次迭代点，即
f ( x k k d k ) min f ( x k d k )

(推论)在收敛定理的假设下，若f (x)为凸函数，则最速下降法或在有限迭代步后达到最小点；或得到点列 x k ，它的任何聚点都是 f (x)的全局最小点。
二、最速下降法

最速下降法特征：相邻两次迭代的方向互相垂直。
令
( ) f ( x d ), 利用精确一维搜索，可得
二、最速下降法最速下降法收敛速度慢！在最速下降法中，利用精确一维搜索求最佳步长，使得相邻两次迭代的搜索方向总是垂直的，使得逼近极小点过程是“之”字形，
x0
x2 d 2 d1 d 0 x1
这样从任何一个初始点开始，都可以很快到达极小点附近，但是越靠近极小点步长越小，移动越慢，导致最速下降法的收敛速度很慢。实际运用中，在可行的计算时间内可能得不到需要的结果。
三、Newton法
2 例1：用Newton法求 f x1, x2 x12 25x2 的极小点。

解：取初始点 x 2, 2
0
T
则:
2 x1 4 2 2 0 0 f x |x0 , f x 100 0 50 50 x2
使得对于所有 1 i , j n 有：
Gij x Gij y x y , x, y R n
其中 Gij
x 是海赛阵
则当 x0 的 i, j 元素．
* x 充分靠近时，对于一切 k , 牛顿迭代有意义， * x , 并且具有二阶收敛速度。迭代序列 xk 收敛到
二、最速下降法

用于二次函数时的收敛速度分析
1 T 1 , 2分别定理：二次函数 f ( x) x Ax, A为对称正定， 2
为其最小和最大特征值，从任意初点 x 出发，对二次函
数，用最速下降法产生的序列 {x
k 1
0
k
} ，对于 k 0 有
k
2 1 2 2 2 1 0 k k f (x ) ( ) f ( x ), x x 2 1 1 2 1 2 1 由于 1 x k 0. 2 1
10
d 0 / / d 2 / / d 4 / /... / / d 2 k
t , d 2 k t d 0
t与k有关
5
0
Ax tAx
2k
0
-5
-10
(d k f ( x k ) Ax k )
-15 -1.5 -1 -0.5 0 0.5 1 1.5
x tx .
2k 0
k
k 2
产生新
的搜索方向，然后继续使用最速下降方向。两种方向交替使用，实践效果优于单纯使用最速下降方向。
可以利用最速下降法初期搜索效率高的特性，首先使用最速下降法，然后使用其它局部收敛速度快的计算方式。
三、Newton法算法的基本思路考虑从
xk
到
x
k 1
的迭代过程，在
x
k
点处对函数
此时
2 1 0 2 1
x0
x1
x1 0 因而由上述定理知：

0 || x1 || 0
即只需迭代一步就到了极小点。（2）当 1 2 时, 等值线为椭圆。此时对于一 2 ，等值线是很扁的椭圆
2 1 1，对于一般的初始点,收敛此时 2 1
k
k

T
令
Q x f x k 2 f x k x x k 0 ，有
T 1 k 2 k k x x x x f x x x 2 k
三、Newton法
2 f x k x x k = f x k
若Hesse矩阵 f x 正定，则 f x
2 k
2
二次函数Q x 的极小点为：

k

存在，由此求出
k 1
x
以此
k 1
k +1
x f x
2

k

1
f x k
Newton法
* 极小点的一个新的近似。此公式 x x 即为多元函数求极值的Newton迭代公式。目标函数
采用非精确一维搜索求步长, 可使相邻两个迭代点处的
梯度不正交，从而改变收敛性。
二、最速下降法采用加速梯度法负梯度方向和 d
k
x x
k
k 2
结合。
由于最速下降法在极小点附近成“锯齿”状，因此下降过程中的搜索方向可适时改变搜索方向的正交特性。
开始取负梯度方向，每两步用 d k
x x
二、最速下降法
第2次迭代：
1 1
1 4 2 f x1 1 , x =x +0 d = +1/4 = ， 2 1 2 1/2
1 0 0
2+ x + d = ， 1/2+2 ( )=f x1 + d 1 =f 2+ ,1/2+2
0
x k 1 x k +k d k x k k f ( x k )
单位向量
负梯度方向 d k f ( x k ) 是函数值减少最快的方向。
f ( x)T d k f ( x ) d k cos(f ( x ), d k )
二、最速下降法最速下降法的计算流程 (1) 选定某一初始点 x ，
作为
f x
Newton法的几何意义
二次函数 Q x 的等值线为 k 1 椭圆族。 x 为椭圆中心。椭圆等值线逼近目标函数等值线！
等值线
三、Newton法 Newton法的计算步骤已知目标函数 f x , 给定误差限步骤1. 选定初始点步骤2. 如果 f x k
得 1 =1/2,
继续迭代可得到函数的近似最优解……
二、最速下降法最速下降法的收敛性分析 (收敛性定理)设目标函数 f (x)连续可微，且水平集
L x f ( x) f ( x 0 ) 有界，则最速下降法或者在有限迭代步
k x 后终止；或者得到点列，它的任何聚点都是f (x)的驻点。
2 k k k
f x d = -f x

线性方程组
三、Newton法牛顿法收敛性定理
f
设 f
*
* x x 二次连续可微，是 f x 的局部极小点，
x 0
假定 2 f x* 正定，且海赛阵满足Lipschitz条件，即存在
0,
0 T
解：函数的梯度为第1次迭代：
0 0
0
1+4 0 0 x + d = ， ( )= f x + d =f 1+4 ,1 2 1 2
= 1+4 2 1 2 2 1+4 1 2 4 1+4
0
0 并令 k: 0
(2) 若 f ( x k ) (3)
, x* x k，否则转（3）；
d k f ( x k )
(4) 由精确一维搜索确定步长步长
k
k
，即由一个极小化
k
问题求得最佳步长
令 x k 1
min f ( x d )
xk k d k , k k 1, 转（2）。
f x
Tayloy展开：
f ( x ) f ( x ) f x
k
k

T
k x x
略去高阶项
T 1 k 2 k k k 2 x x f x x x o( x x ) 2
f ( x ) Q( x ) f ( x ) f x
x 0 , 计算 f 0 f x 0 , k : 0
，算法停止，x
k

.

*
xk
，否步长确定
则转步骤3。
步骤3. 计算搜索方向 d f x
2

k
1
f x k
步骤4. 令
xk 1 xk d k , k k 1 ，转步骤2.