最优化方法(共轭梯度法)

数值最优化(共轭梯度)ppt课件

x(k)是函数在{x(0) +1p1+2p2+···+kpk,1,2···,k∈R}中的
极小点.
最终x(n)= u1 p1+u2 p2+···+un pn =x* 即迭代过程同样在n步之后找到最优点.
因此,对二次函数
f ( x) 1 xTGx bT x c 2
我们可以找到n个方向(向量),对其依次进行一维搜索,最
8
共轭方向法的思路
|| (s1 1 u1) p1 (s2 u2 ) p2 L (sn un ) pn ||G2
(s1 1 u1) p1 (s2 u2 ) p2 L (sn un ) pn ,
( s1
1
u1 )
p1
( s2
n
u2
)
p2
L
(sn un ) pn
(s1 1 u1)2 || p1 ||G2 (si ui )2 || pi ||G2
即p1,p2,···,pn线性无关,且 pi , pj 0(i j)
设问题的最优解x*= -G-1b在这组基底下的表示为x*= u1 p1+u2 p2+···+un pn
任取初始点x(0) =s1 p1+s2 p2+···+sn pn, 在方向p1上进行一维搜索,即求解问题
min || (s1 1 u1) p1 (s2 u2 ) p2 L (sn un ) pn ||G2
z
x(1) O
x(3) =x* x(2) y
x(0)
x
5
共轭方向法的思路
上面的方法对一般的二次函数是否适用呢?
考虑问题
其中
G
1 2

最优化方法

随机梯度下降每次迭代只使用一个样本，迭代一次计算量为n 2 ，当样本个数m很大的时候，随机梯度下降迭代一次的速度要远高于批量梯度下降方法。两者的关系可以这样理解：随机梯度下降方法以损失很小的一部分精确度和增加一定数量的迭代次数为代价，换取了总体的优化效率的提升。增加的迭代次数远远小于样本的数量。
2. 牛顿法和拟牛顿法（Newton's method & Quasi-Newton Methods）
牛顿法（Newton's method）牛顿法是一种在实数域和复数域上近似求解方程的方法。方法使用函数 f ( x ) 的泰勒级数的前面几项来寻找方程 f ( x ) = 0 的根。牛顿法最大的特点就在于它的收敛速度很快。
具体步骤：
首先，选择一个接近函数 f ( x ) 零点的 x 0 ，计算相应的 f ( x 0 ) 和切线斜率 f ' (x 0 ) （这里 f ' 表示函数 f 的导数）。然后我们计算穿过点 (x 0 , f (x 0 )) 并且斜率为 f '(x 0 ) 的直线和 x 轴的交点的 x 坐标，也就是求如下方程的解：
批量梯度下降法（Batch Gradient Descent,BGD）
（1）将J(theta)对theta求偏导，得到每个theta对应的的梯度：
（2）由于是要最小化风险函数，所以按每个参数 theta的梯度负方向，来更新每个theta：
（3）从上面公式可以注意到，它得到的是一个全局最优解，但是每迭代一步，都要用到训练集所有的数据，如果m很大，那么可想而知这种方法的迭代速度会相当的慢。所以，这就引入了另外一种方法——随机梯度下降。对于批量梯度下降法，样本个数m，x为n维向量，一次迭代需要把m个样本全部带入计算，迭代一次计算量为m*n 2 。

最优化方法-共轭方向和共轭梯度法

由3式可以看出
2020/3/6
16
2.共轭方向-共轭方向法
• 基本定义
利用共轭方向作为搜索方向的无约束极小化算法
• 通用步骤:
(1)任取X 0 ,以及在X 0的下降方向P0 , k 0; (1)求解一维搜索问题
min f ( X k Pk ),为最优步长,是个数值．
(3) X k1 X k k Pk ;
X
T QX

bT
X

c, Q正定,
X 0是初始点,
P0

f
(X0)
X k1 X k k Pk , k 0,1...m 1, k是最优步长,且
Pk1 f ( X k1) ak Pk (这是构造的结果)
其中ak

f
( X k1)T QPk PkT QPk
,
P0
(
X
)T
k 1
Pk
)T

PkT f ( X k1)
f ( X k1) QX k1 b Q( X k k Pk ) b, ( X k 1 X k k Pk )
f ( X k1) (QX k b) kQPk f ( X k ) kQPk
当m 2时所以，P0，P1， Pm1是线性无关的。
P0T QP1

P0T Q f ( X 1 )
f ( X 1 )T QP0 P0T QP0
P0
P0T Qf ( X 1 ) f ( X 1 )T QP0 0
表明，P0与P1共轭。
2020/3/6
2020/3/6
4
1.共轭方向法的基本原理
• 已知 X1 点是在 X 0 点在直线 l0 上沿 P0 搜索方向的一个极小点。（l0 与 P0 是平行的）

最优化方法实验报告(2)

最优化方法实验报告Numerical Linear Algebra And ItsApplications学生所在学院：理学院学生所在班级：计算数学10-1学生姓名：甘纯指导教师：单锐教务处2013年5月实验三实验名称：无约束最优化方法的MATLAB实现实验时间: 2013年05月10日星期三实验成绩：一、实验目的：通过本次实验的学习，进一步熟悉掌握使用MATLAB软件，并能利用该软件进行无约束最优化方法的计算。

二、实验背景：（一）最速下降法1、算法原理最速下降法的搜索方向是目标函数的负梯度方向，最速下降法从目标函数的负梯度方向一直前进，直到到达目标函数的最低点。

2、算法步骤用最速下降法求无约束问题n R()min的算法步骤如下：xxf，a ）给定初始点)0(x ，精度0>ε，并令k=0；b ）计算搜索方向)()()(k k x f v -∇=，其中)()(k x f ∇表示函数)(x f 在点)(k x 处的梯度；c ）若ε≤)(k v ，则停止计算；否则，从)(k x 出发，沿)(k v 进行一维搜索，即求k λ，使得)(min )()()(0)()(k k k k v x f v x f λλλ+=+≥； d ）令1,)()()1(+=+=+k k v x x k k k k λ，转b ）。

（二）牛顿法1、算法原理牛顿法是基于多元函数的泰勒展开而来的，它将)()]([-)(1)(2k k x f x f ∇∇-作为搜索方向，因此它的迭代公式可直接写出来：)()]([)(1)(2)()(k k k k x f x f x x ∇∇-=-2、算法步骤用牛顿法求无约束问题n R x x f ∈),(min 的算法步骤如下：a ）给定初始点)0(x ,精度0>ε，并令k=0；b ）若ε≤∇)()(k x f ，停止，极小点为)(k x ，否则转c ）；c ）计算)()]([,)]([)(1)(2)(1)(2k k k k x f x f p x f ∇∇-=∇--令；d ）令1,)()()1(+=+=+k k p x x k k k ，转b ）。

共轭方向与共轭梯度法-最优化方法

f (X1)T P0 0 ，所以 f (X1)T P0 1P1TQ P0 0
P1TQ P0 0
（1）
以上就是搜索方向P1所必须满足的（必要）条件。这也是使X2是极小点的充分条件。 P1，P2称为关于Q的共轭方向。
讨论表明对于二维的具有正定矩阵Q的二次函数f(X),从任一初始点出发，依次沿关于Q共轭的两个方向进行一维搜索，必可达到 f(X)的无约束精确极小点。
Pk 1

0
且对j 0,1 , k 2, 有
PjT QPk PjT Q f ( X k ) k1Pk1

PjT Qf
(X
k
)

k
PT
1 j
QPk
1
f ( X k )T QPj
f ( X k )T f ( X j1) f ( X j ) j
f ( X k1 ) QX k1 b Q( X k k Pk ) b (2)
f ( X k1 ) f ( X k ) k QPk
所以
f ( X m ) f ( X m1) m1QPm1
f ( X m2 ) m2QPm2 m1QPm1
其中1 是最优步长，1>0 .因为 X * 是无约束极小点。
故 f ( X * ) 0 即 QX * b 0
f (X1) QX1 b
Q( X * 1P1) b (QX * b) 1QP1 1QP1
又因为 X1是f(X)沿P0方向的直线l0上的极小点，故
设 X En ,
,Q为对称正定矩阵，P0，
P1，···，Pm-1是关于Q共轭的m个共轭方向，

共轭梯度法

最速下降法1.最速下降方向函数f(x)在点x处沿方向d的变化率可用方向导数来表示。

对于可微函数，方向导数等于梯度与方向的内积，即：Df(x;d) = ▽f(x)T d,因此，求函数f(x)在点x处的下降最快的方向，可归结为求解下列非线性规划：min ▽f(x)T ds.t. ||d|| ≤ 1当 d = -▽f(x) / ||▽f(x)||时等号成立。

因此，在点x处沿上式所定义的方向变化率最小，即负梯度方向为最速下降方向。

2.最速下降算法最速下降法的迭代公式是x(k+1) = x(k) + λk d(k) ,其中d(k)是从x(k)出发的搜索方向，这里取在x(k)处的最速下降方向，即d = -▽f(x(k)).λk是从x(k)出发沿方向d(k)进行一维搜索的步长，即λk满足f(x(k) + λk d(k)) = min f(x(k)+λd(k)) (λ≥0).计算步骤如下：(1)给定初点x(1) ∈ R n，允许误差ε> 0，置k = 1。

(2)计算搜索方向d = -▽f(x(k))。

(3)若||d(k)|| ≤ε，则停止计算；否则，从x(k)出发，沿d(k)进行一维搜索，求λk，使f(x(k) + λk d(k)) = min f(x(k)+λd(k)) (λ≥0).(4)令x(k+1) = x(k) + λk d(k)，置k = k + 1，转步骤(2)。

共轭梯度法1.共轭方向无约束问题最优化方法的核心问题是选择搜索方向。

以正定二次函数为例，来观察两个方向关于矩阵Ａ共轭的几何意义。

设有二次函数：f(x) = 1/2 (x - x*)T A(x - x*) ,其中A是n×n对称正定矩阵，x*是一个定点，函数f(x)的等值面1/2 (x - x*)T A(x - x*) = c是以x*为中心的椭球面，由于▽f(x*) = A(x - x*) = 0，A正定，因此x*是f(x)的极小点。

共轭梯度法在优化问题中的应用

共轭梯度法在优化问题中的应用共轭梯度法是一种高效的优化算法，在许多优化问题中都得到了广泛的应用。

它是一种迭代方法，用于解决最小化二次函数的优化问题。

在本文中，我将介绍共轭梯度法的原理和算法，并探讨它在优化问题中的应用。

一、共轭梯度法的原理共轭梯度法的核心思想是通过迭代的方式，找到一个与之前迭代步骤方向相互垂直的搜索方向，以加快收敛速度。

在每一次迭代中，共轭梯度法根据当前的搜索方向更新搜索点，直到找到最优解或达到预定的收敛标准。

具体来说，共轭梯度法从一个初始搜索点开始，计算对应的梯度，并沿着负梯度方向进行搜索。

通过一定的方法找到一个与之前搜索方向相互垂直的新搜索方向，并以一定步长更新搜索点。

迭代过程将重复进行，直到满足收敛标准或达到最大迭代次数。

二、共轭梯度法的算法共轭梯度法的算法包括以下几个步骤：1. 初始化搜索点x0和梯度g0，设置迭代次数k=0。

2. 计算当前搜索方向d_k=-g_k（k为当前迭代次数）。

3. 通过一维搜索方法找到最佳步长α_k。

4. 更新搜索点x_k+1 = x_k + α_k * d_k。

5. 计算更新后的梯度g_k+1。

6. 判断是否满足收敛标准，若满足则算法停止，否则转到步骤7。

7. 计算新的搜索方向β_k+1。

8. 将迭代次数k更新为k+1，转到步骤3。

这个算法保证了每一次迭代中的搜索方向都是彼此相互垂直的，从而加快了收敛速度。

三、共轭梯度法的应用共轭梯度法在优化问题中有广泛的应用，特别是在二次规划、线性规划和非线性规划等领域。

在二次规划问题中，共轭梯度法可以高效地求解线性系统Ax=b，其中A是一个对称正定的矩阵。

由于共轭梯度法的特性，它只需要进行n 次迭代，其中n是问题的维度，就能得到精确的解。

这使得共轭梯度法在大规模线性系统求解中具有重要的应用价值。

在线性规划问题中，共轭梯度法可以用于求解带有线性约束的最小二乘问题。

共轭梯度法通过将线性约束转化为一系列的正交子空间，从而在求解最小二乘问题时能够更快地收敛。

最优化梯度法和共轭梯度法

处的梯度方向构造一组共轭方向，并沿此方向进行搜索，求出
函数的极小点。
以下分析算法的具体步骤。
(1) 任取初始点 x (1)，第一个搜索方向取为 d (1) f ( x (1) ) ；
( 2) 设已求得点 x ( k 1) ， f ( x ( k 1) ) 0 ， g k 1 f ( x ( k 1) ) ，若令
局部目标函数值下降最快的方向。最速下降法是线性收敛的算法。
三. 共轭梯度法
1. 共轭方向和共轭方向法
R 定义设 A 是 n n 的对称正定矩阵，对于 n中的两个非零向量d 1 和 d 2，
若有 d
1T
Ad 2 0 ，则称 d 1和d 2关于A共轭。
设 d 1 , d 2 ,, d k 是 Rn 中一组非零向量，如果它们两两关于A
以任意的 x (1) R n为初始点，依次沿 d (1) , d ( 2 ) ,, d ( k ) 进行搜索，
得到点 x ( 2) , x ( 3) ,, x ( k 1) , 则 x ( k 1) 是函数 f ( x )在 x (1) Bk 上的
极小点，其中
Bk { x | x i d ( i ) , i R }
i

d ( i ) A g i 1 d
( i )T
T
Ad
(i )

g i 1T A d ( i ) d
( i )T
Ad ( i )
g i 1T A[ ( x ( i 1) x ( i ) ) / i ] d
( i )T
A [ ( x ( i 1) x ( i ) ) / i ]
共轭，即 d i Ad j 0 , i j , i , j 1 , 2 ,, k 。