最优化理论与算法(第三章)

合集下载

AAA最优化理论与方法课件(第3章,马昌凤版)

0.78
H
0.02
0.12
0.14
0.02 0.86
0.04 0.06
0.12 0.04
0.72 0.08
0.14
0.06
0.08
0.74
c 0.76, 0.08,1.12, 0.68T
其最小特征值n 0.52,最大特征值1 0.94
1 1
Байду номын сангаас
n n
2
0.081
方法分类：
1、间接法：对简单问题，求解必要条件或充分条件；
零阶法：只需计算函数值 f(x)
2、迭代算法：一阶法：需计算 ▽f(x)
二阶法：需计算 ▽2f(x)
直接法梯度法
从梯度下降到拟牛顿法
训练神经网络的五大学习算法
1、梯度下降法，又称为最速下降法
2、牛顿法
3、共轭梯度法（Conjugate gradient）
最优化理论与方法
Chapter 3 最速下降法和牛顿法
经典是永恒的
3.1 最速下降法及其Matlab实现 3.2 牛顿法及其Matlab实现 3.3 修正牛顿法及其Matlab实现
学习的重要性：
1、直接用于无约束的实际问题； 2、其基本思想和逻辑结构可以推广到约束问题；
3、约束问题可以转化成无约束问题求解。
min f (x) x12 x22 .
xR 2
a2 b2
显然该问题有精确解x* (0,0)T , f (x*) 0. 分析a与b 取不同值时迭代次数的变化规律。初始点都取为
(1,1)T，精度取1e-5。
a
b
离心率
迭代次数最后目标值
d (1) 4 5 1 / 10 9

最优化理论与算法完整版课件 PPT

Bazaraa, J. J. Jarvis, John Wiley & Sons, Inc.,
1977.
组合最优化算法和复杂性
Combinatorial
Optimization 蔡茂诚、刘振宏
Algorithms and Complexity
清华大学出版社，1988 I运nc筹.,学19基82础/1手99册8
最优化首先是一种理念, 运筹学的“三个代表”
其次才是一种方法.
• 模型
• 理论
2021/4/9
• 算法
5
绪论---运筹学（Operations Research -
运筹学O方R）法
最优化/数学规划方法
连续优化：线性规划、非线性规划、非光滑优化、全局优化、变分法、二次规划、分式规划等
离散优化：组合优化、网络优化、整数规划等
2021/4/9
11
1. 食谱问题
我每天要求一定量的两种维生素，Vc和Vb。假设这些维生素可以分别从牛奶和鸡蛋中得到。
维生素
Vc(mg) Vb(mg) 单价(US$)
奶中含量
2 3 3
蛋中含量
4 2 2.5
每日需求 40 50
需要确定每天喝奶和吃蛋的量，目标以便以最低可能的花费购买这些食物，而满足最低限度的维生素需求量。
最优化理论与算法
2021/4/9
1
提纲
使用教材：
最优化理论与算法陈宝林
参考书：
数学规划黄红选，韩继业清华大学出版社
1. 线性规划对偶定理
2. 非线性规划 K-K-T 定理
3. 组合最优化算法设计技巧
2021/4/9
2
其他参考书目

最优化理论-教学大纲

《最优化理论》教学大纲课程编号：112302A课程类型：专业选修课总学时：32 讲课学时：26 实验学时：6学分：2适用对象：金融工程专业先修课程：数学分析、线性代数、经济学、金融学一、教学目标最优化问题即在有限种或无限种可行方案（决策）中选择最优的方案（决策），与之相对应的最优化理论是数学领域的一个重要分支，也是金融工程专业学生需要掌握的必备工具之一。

现代金融学研究的技术化程度日益增加，金融工程的许多问题都与最优化理论与方法密切相关，例如：投资组合选择与资产配置、期权的定价与对冲、金融风险的度量与管理、资产和负债的现金流管理等等。

本课程拟对最优化的基础理论和求解方法进行一个比较全面和系统的介绍，其中涉及到的方法包括：线性规划、非线性规划、二次规划、锥优化、整数规划、动态规划、随机规划等等。

通过本课程的学习，实现以下几个教学目标：目标1：帮助学生了解各类最优化模型的数学理论与求解方法；目标2：使学生理解如何应用这些优化模型分析经济学和金融学相关问题。

二、教学内容及其与毕业要求的对应关系本课程主要介绍几种主要的最优化模型的理论与方法，根据最优化模型的类别进行划分，分为无约束最优化和有约束最优化两大类别。

其中，无约束最优化问题的子类别较少、难度相对较低，主要从理论方法和数值方法两方面进行讲解；有约束最优化重点讲解线性规划的单纯形法和非线性规划的库恩塔克条件，在时间允许的情况适当介绍其他类别的高级规划课题。

基本教学内容的框架图如下：本课以课堂讲授为主，间之以案例教学、随堂练习和课后作业，针对适当的问题讲解其计算机程序实现，使学生既能掌握理论，也能动手操作，切实做到理论与实践相结合。

该课程旨在进一步完善金融工程专业学生的数理知识，一方面有利于强化与完善了金融专业学生的数理知识体系，同时结合经济学和金融学实际问题进行讲解学习，锻炼了学生们思考学习的能力，更训练了学生应用数理思维分析经济金融问题的能力，与金融工程专业学生的毕业要求相呼应。

最优化方法第三章非线性优化

在点X
f (X )
可微，
f (X ) C1
则称向量f ( X ) ( f ( X ) ,..., f ( X ) )T
x1
xn
C1 C2
f (X) C2
为函数 f ( X ) 在点 X 处的梯度．
图３－６指出了梯度的几何意义：如果函数 f (X ) 在点 X 的梯度f (X ) 是非零向量，那么 f (X ) 就是 f (X ) 的等值面在 X 处的法向量，
Company Logo
定义３.１
设Ｄ是问题（３－１）～（３－３）的可行区域，
X * ∈Ｄ，若存在 X * 的一个邻域Ｎ（X *，δ），
当Ｘ∈ Ｄ∩Ｎ（ X，* δ）时，就有
f (X *) f (X )
(3-4)
则称 X * 是非线性规划（３－１）～（３－３）的
一个局部最优（极小）解．
特X *别，若在（３－４）中严格不等号“＜”成立，则称
x2
凸函数的判定及与Hesse矩阵的联系
定理3.7 （严格凸函数的一阶充要条件）
设D为开凸集，f X 在D上有一阶连续偏导。那么 f X 是D上
的严格凸函数的充要条件是：对D上任意两个相异X点1
有 f X 2 f X1 f X1 T X 2 X1
X，2
，都
建立数学模型：设售出两种设备分别为 x1 , x2 件。
max f 30x1 450x2
s.t.
0.5x1 (2 0.25x2 )x2 800 x1, x2 0
Company Logo
一般而言，线性规划问题总可以表示为如下
形式：
Min
f( X )
S . t . gi (X ) 0, j 1, 2,..., m

最优化理论与算法(第三章)

第三章牛顿法§3.1 最速下降法一、最速下降法在极小化算法中，若每次都以迭代点处的负梯度方向为搜索方向，产生的算法称为最速下降法，它是无约束最优化算法中最简单、最基本的算法。

算法描述：1）给出初始点0n x R ∈，允许误差0ε>，0k =； 2）计算k k d g =-，若k g ε≤，Stop 令 *k x x ≈； 3）由一维搜索确定步长因子k α，使得()min ()k k k k k f x d f x d ααα≥+=+4）令1k k k k x x d α+=+，1k k =+，go to 2).二、最速下降算法的收敛性定理3.1 设1f C ∈，则最速下降算法产生的点列{}k x 的每个聚点均为驻点。

证明：设x 是{}k x 的一个聚点，则存在子序列{}1k K x ，使得1lim k k K x x ∈=令()k k d f x =-∇，由1f C ∈，知{}1()k K f x ∇是收敛序列，故{}1k K d 有界，且1lim ()k k K d f x ∈=-∇由定理2.6有2()(())()0Tf x f x f x ∇-∇=-∇=故有 ()0f x ∇=。

定理 3.2 设()f x 二次连续可微，且2()f x M ∇≤，则对任何给定的初始点0n x R ∈，最速下降算法或有限终止，或lim ()k k f x →∞=-∞，或lim ()0k k f x →∞∇=。

证明：不妨设k ∀，()0k f x ∇≠。

由定理2.5有211()()()2k k k f x f x f x M+-≥∇ 于是 []120101()()()()()2kk k i i i i i f x f x f x f x f x M -+==-=-≥∇∑∑令k →∞，由{()}k f x 为单调下降序列，则要么lim ()k k f x →∞=-∞，要么 lim ()0k k f x →∞∇=。

数值最优化算法与理论理论-第三章算法

1、最速下降法function f=fun_obj(x)f=100*(x(2)-x(1)^2)^2+(1-x(1))^2;function g=fun_grad(x)g=[2*x(1)-400*x(1)*(-x(1)^2+x(2))-2,-200*x(1)^2+200*x(2)];% 用armijo搜索确定步长，其中xk是当前迭代点,rho,sigma为armijo参数，gk为当前下降方向function mk=armijo(xk,rho,sigma,gk )%assert(rho>0&&rho<1); % 限制Armijo参数rho在(0,1)之间%assert(sigma>0&&sigma<0.5); % 限制Armijo参数sigma在(0,0.5)之间mk=0;max_mk=100; % 最大迭代次数while mk<=max_mkx=xk+rho^mk*gk; % 求解x(k+1)iffeval('fun_obj',x)<=feval('fun_obj',xk)-sigma*rho^mk*(fun_grad(xk))*g k' %终止条件break;endmk=mk+1; % 更新迭代endfunction [xk,fk,k]=steepestmain(x0)max_iter=5000; % max number of iterationsEPS=1e-6; % threshold of gradient normrho=0.8;sigma=0.59; % Armijo parametersk=0;xk=x0; % initializationwhile k<max_iterdk=fun_grad(xk);d=-dk; % search directionif norm(dk)<EPS %precisionbreak;endmk=armijo(xk,rho,sigma,d); %armijo line searchxk=xk+rho^mk*d; %updatefk=fun_obj(xk);k=k+1;endx0=[-1,2];[xk,fk,k]=steepestmain(x0);2、Newton法function f=fun_obj(x)f=100*(x(2)-x(1)^2)^2+(1-x(1))^2;function g=fun_grad(x)g=[2*x(1)-400*x(1)*(-x(1)^2+x(2))-2,-200*x(1)^2+200*x(2)];function He=Hess(x)He=[1200*x(1)^2-400*x(2)+2,-400*x(1);-400*x(1),200];% 用armijo搜索确定步长，其中xk是当前迭代点,rho,sigma为armijo参数，gk为当前下降方向function mk=armijo(xk,rho,sigma,gk )%assert(rho>0&&rho<1); % 限制Armijo参数rho在(0,1)之间%assert(sigma>0&&sigma<0.5); % 限制Armijo参数sigma在(0,0.5)之间mk=0;max_mk=100; % 最大迭代次数while mk<=max_mkx=xk+rho^mk*gk; % 求解x(k+1)iffeval('fun_obj',x)<=feval('fun_obj',xk)-sigma*rho^mk*(fun_grad(xk))*g k' %终止条件break;endmk=mk+1; % 更新迭代endfunction [xk,fk,k]=Newtonmain(x0)max_iter=5000; % 最大迭代次数EPS=1e-6; % 精度rho=1;sigma=1e-4; % Armijo 参数k=0;xk=x0; % 初值while k<max_iter % 迭代次数超过最大迭代次数时跳出循环k=k+1;dk=fun_grad(xk); % x(k)处的梯度H=Hess(xk); % x(k)处的Hessian矩阵d=-H\dk'; % x(k)处的搜索方向if norm(dk)<EPS % 终止条件break;endmk=armijo(xk,rho,sigma,d'); % 利用armijo搜索确定步长xk=xk+rho^mk*d'; % 计算x(k+1)的值fk=fun_obj(xk); % 计算x(k+1)处函数的值endx0=[1.2,1.2];[xk,fk,k]=Newtonmain(x0);3、Newton-最速下降法function f=fun_obj(x)f=100*(x(2)-x(1)^2)^2+(1-x(1))^2;function g=fun_grad(x)g=[2*x(1)-400*x(1)*(-x(1)^2+x(2))-2,-200*x(1)^2+200*x(2)];function He=Hess(x)He=[1200*x(1)^2-400*x(2)+2,-400*x(1);-400*x(1),200];% 用armijo搜索确定步长，其中xk是当前迭代点,rho,sigma为armijo参数，gk为当前下降方向function mk=armijo(xk,rho,sigma,gk )%assert(rho>0&&rho<1); % 限制Armijo参数rho在(0,1)之间%assert(sigma>0&&sigma<0.5); % 限制Armijo参数sigma在(0,0.5)之间mk=0;max_mk=100; % 最大迭代次数while mk<=max_mkx=xk+rho^mk*gk; % 求解x(k+1)iffeval('fun_obj',x)<=feval('fun_obj',xk)-sigma*rho^mk*(fun_grad(xk))*g k' %终止条件break;endmk=mk+1; % 更新迭代endfunction [xk,fk,k]=newton_steepest(x0)max_iter=5000; % 最大迭代次数EPS=1e-6; % 精度rho=1;sigma=1e-4; % Armijo 参数 rho=0.8;sigma=0.59;k=0;xk=x0; % 初值while(k<max_iter)k=k+1;dk=fun_grad(xk); % x(k)处的梯度，注意dk为行向量G=Hess(xk); % x(k)处的Hessian矩阵d=-G\dk'; % x(k)处的搜索方向,注意此时d为列向量if norm(dk)<EPS % x(k)处的搜索方向break;end%% 判断d是否为下降方向if d'*dk'<0 % 若d'*dk<0,则d为下降方向d=d;else% 若d'*dk>=0,则d不为下降方向，令下降方向为负梯度方向 d=-dk';endmk=armijo(xk,rho,sigma,d'); % 利用armijo搜索确定步长 xk=xk+rho^mk*d'; % 计算x(k+1)的值fk=fun_obj(xk); % 计算x(k+1)处函数的值endx0=rand(1,2000);[xk,fk,k]=newton_steepest(x0);。

最优化理论与算法完整版课件陈宝林

最优化理论与算法
TP SHUAI
1
提纲
使用教材：
最优化理论与算法陈宝林
参考书：
数学规划黄红选，韩继业清华大学出版社
1. 线性规划对偶定理
2. 非线性规划 K-K-T 定理
3. 组合最优化算法设计技巧
TP SHUAI
2
其他参考书目
Nonlinear Programming - Theory and Algorithms
j1
m
s.t xij bj
i1
xij 0
i 1, 2, , m
j 1, 2, n i 1, 2, , m j 1, 2, n
TP SHUAI
15
3 税下投资问题
• 以价格qi 购买了si份股票i,i=1,2,…,n
• 股票i的现价是pi
• 你预期一年后股票的价格为ri • 在出售股票时需要支付的税金=资本收益×30% • 扣除税金后，你的现金仍然比购买股票前增多 • 支付1%的交易费用 • 例如：将原先以每股30元的价格买入1000股股票，以
最优化首先是一种理念, 运筹学的“三个代表”
其次才是一种方法.
• 模型
• 理论
• 算法 TP SHUAI
5
绪论---运筹学（Operations Research - OR）
运筹学方法
最优化/数学规划方法
连续优化：线性规划、非线性规划、非光滑优化、全局优化、变分法、二次规划、分式规划等
离散优化：组合优化、网络优化、整数规划等
TP SHUAI
23
6.结构设计问题
p1
p2
h
2p
2L
B
d
受力分析图

非线性规划理论和算法

非线性最优化理论与算法第一章引论本章首先给出了一些常见的最优化问题和非线性最优化问题解的定义，并且根据不同的条件对其进行了划分。

接着给出了求解非线性优化问题的方法，如图解法等，同时又指出一个好的数值方法应对一些指标有好的特性，如收敛速度与二次终止性、稳定性等。

随后给出了在非线性最优化问题的理论分析中常用到的凸集和凸函数的定义和有关性质。

最后给出了无约束优化最优性条件。

第二章线搜索方法与信赖域方法无约束优化的算法有两类，分别是线搜索方法和信赖域方法。

本章首先给出了两种线搜索方法即精确线搜索方法和非精确线搜索方法。

线搜索方法最重要的两个要素是确定搜索方向和计算搜索步长，搜索步长可确保下降方法的收敛性，而搜索方向决定方法的收敛速度。

精确线搜索方法和非精确线搜索方法对于精确线搜索方法，步长ακ满足αk=arg minƒx k+αd kα≥0这一线搜索可以理解为αk是f(x k+αd k)在正整数局部极小点，则不论怎样理解精确线搜索，它都满足正交性条件：d k T∇ƒ(x k+αk d k)=0但是精确搜索方法一般需要花费很大的工作量，特别是当迭代点远离问题的解时，精确的求解问题通常不是有效的。

而且有些最优化方法，其收敛速度并不依赖于精确搜索过程。

对于非精确搜索方法，它总体希望收敛快，每一步不要求达到精确最小，速度快，虽然步数增加，则整个收敛达到快速。

书中给出了三种常用的非精确线搜索步长规则，分别是Armijo步长规则、Goldstein步长规则、Wolfe步长规则。

第一个步长规则的不等式要求目标函数有一个满意的下降量，第二个不等式控制步长不能太小，这一步长规则的第二式可能会将最优步长排除在步长的候选范围之外，也就是步长因子的极小值可能被排除在可接受域之外。

但Wolfe步长规则在可接受的步长范围内包含了最优步长。

在实际计算时，前两种步长规则可以用进退试探法求得，而最后一种步长规则需要借助多项式插值等方法求得。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

证明：不妨设k ∀，()0k f x ∇≠。

最速下降算法若采用不精确一维搜索，仍有下列总体收敛性定理。

定理3.3 设1f C ∈，则采用不精确一维搜索得到的点列{}k x 的每个聚点均为驻点。

证明：直接由定理2.14可得。

注：1) 最速下降算法的收敛性也可由前述关于模式算法收敛性结果定理2.7直接获得；2）最速下降算法的主要优点是方法简单、直观，有好的总体收敛性，但收敛很慢。

三、最速下降算法的收敛速度 1. 先考虑二次函数情形定理3.4 对极小化问题1min ()2Tf x x Gx =，其中G 为n n ⨯对称正定矩阵，1λ，n λ分别为G 的最大与最小特征值。

设*x 是最优解，则最速下降算法的收敛速度至少是线性的，且下面的界成立：*2211*221()()()(1)()()(1)()k n k n f x f x f x f x λλττλλ+---≤=-++，*1*k k x x x x+-≤- 其中11n G G τλλ-==（τ为矩阵G 的条件数）。

证明：由()f x Gx ∇=，有()k k f x Gx ∇=。

故1()()k k k k k k k k k k k k x x d x f x x Gx I G x αααα+=+=-∇=-=-其中k α使 (())(())k k k f I G x f I G x αα-≤-， 0α∀≥ 若设 ()1k P t t α=-，()Q t ut λ=- 其中,u R λ∈。

则有()Q G I uG λ=-，而(0)Q λ=，利用这些，可知1()()(())()(0)k k k k Q G f x f I G x f x Q α+=-≤，（要求0u λ>）21()()1()()(())(())2(0)(0)2(0)T T k k k k Q G Q G x G x Q G x G Q G x Q Q Q == 设12,,n λλλ≥≥ 是G 的特征值，而(1,,)i u i n = 是对应得标准特征向量（两两正交的单位向量）。

令()1nk k i ii x au ==∑，则上式可进一步表示为：()()2111(())(())2(0)n nk T k i i j j i j a Q G u G a Q G u Q ==∑∑ ()()2111(())(())2(0)n nk Tk i i i j j j i j a Q u G a Q u Q λλ===∑∑ （将G 作用到∑内每一项） ()()2111(())(())2(0)n nk T k i i i j j j j i j a Q u a Q u Q λλλ===∑∑ ()2()2211()2(0)nk i i i i a Q Q λλ==∑ （由i u 是标准正交向量组）对()Q t ut λ=-，可适当选取,u λ，使1()1,()1n Q Q λλ==-。

事实上，只须令1()1()1n Q Q λλ=⎧⎨=-⎩即可求得()1112,n n nu λλλλλλλ-+==-- 从而 ()112()n nt Q t λλλλ-+=-。

显然()Q t 单调上升。

由1()1,()1n Q Q λλ==-，及12,,n λλλ≥≥ ，即得()1(1,,)i Q i n λ≤= 。

由 ()()22()2()1221111()()2(0)2(0)n nk k k i i i i i i i f x a Q a Q Q λλλ+==≤≤∑∑ 及 ()2()()()()()11111111()()()()()222n nn n n k T k k T k k k i i j j i i j j j i i i j i j i f x a u G a u a u a u a λλ========∑∑∑∑∑即得 12()()(0)k k f x f x Q +≤. 再由 2211(0)n n Q λλλλ⎛⎫+= ⎪-⎝⎭最后得 2111()()n k k n f x f x λλλλ+⎛⎫-≤ ⎪+⎝⎭0k ∀≥.由1101nnλλλλ-<<+，并注意到()f x 是正定二次函数（()0f x ≥），则有()0 ()k f x k →→∞。

再由()f x 为严格凸二次函数（正定二次型），故当且仅当0x =时，()0f x =，由此可推得必有 *0k x x →=.再注意到*()0f x =，则有2*111*1()()()()()()k k n k k n f x f x f x f x f x f x λλλλ++⎛⎫--=≤ ⎪-+⎝⎭从而定理第一式得证。

下面再证定理第二式，记*k k e x x =-，k ∀。

由G 是对称正定的，故有1T T T n k k k k k k e e e Ge e e λλ≤≤由*0x =，则 2()T T k k k k k e Ge x Gx f x == 故有12()T T n k k k k k e e f x e e λλ≤≤， k ∀注意到： 2111()()n k k n f x f x λλλλ+⎛⎫-≤ ⎪+⎝⎭因而有22*1111112*112()2()k T k k k n n Tk kn n k k f x x xe e e e x xf x λλλλλλλλ++++-⎛⎫-=≤≤ ⎪+-⎝⎭最后得*1*k k x x x x +-≤-（其中1nλτλ=）。

这表明：最速下降算法至少具有线性收敛速度。

定理3.5（Kantorovich 不等式）设G 是n 阶对称正定矩阵，1λ和n λ分别为其最大和最小特征值，则nx R ∀∈，有211214()()()()T n T T n x x x Gx x G x λλλλ-≥+。

证明：参见袁亚湘等《最优化理论与方法》第三章附录，略。

以上对特殊形式的二次函数1()2Tf x x Gx =的收敛速度进行讨论，对一般的二次函数 1()2TT f x x Gx b x =+ 利用Kantorovich 不等式可得类似的结论，其证明思路如下：设*x 是极小点，则*x 满足*0Gx b +=且()f x 可表示为 ****11()()()22T T f x x x G x x x Gx =--- 记 **1()()()2T E x x x G x x =--，则()E x 与()f x 仅相差一个常数，它们有相同的最优解，且使用最速下降算法时，每次迭代方向产生的迭代序列均完全相同。

现在考察对()E x 的极小化，这时最速下降算法的迭代公式为：1T k k k k k T k k g g x x g g Gg +=- （这里T k k k T k kg gg Gg α=为最优步长因子）其中k k g Gx b =+。

直接计算可得：211121()()()4()()()()Tk k k k nT T k k k k k n E x E x g g E x g Gg g G g λλλλ+--=≥+（由Kantorovich 不等式）故有： 21112114()1()()()n n k k k n n E x E x E x λλλλλλλλ+⎧⎫⎛⎫-≤-=⎨⎬⎪++⎩⎭⎝⎭（1）由（1）即得： ()0k E x →（或*()()k E x E x →）。

由G 正定，当且仅当*x x =时，**1()()()02T E x x x G x x =--= 利用()E x 一致凸性，可证必有：*k x x →。

这表明：算法产生的点列{}k x 是整体收敛到*x 的。

由（1）有： 2*111*1()()()()()()k k n kk n f x f x E x f x f x E x λλλλ++⎛⎫--=≤ ⎪-+⎝⎭（2）注意到： ***1()02T f x x Gx ≤-≤，由（2）有 22*11111()()1()n nk k n n f x f x f x λλλλλλλλ+⎡⎤⎛⎫⎛⎫--⎢⎥≤+- ⎪ ⎪++⎢⎥⎝⎭⎝⎭⎣⎦211()n k n f x λλλλ⎛⎫-≤ ⎪+⎝⎭（3）再令*k k e x x =-（k ∀），则1T T T n k k k k k k e e e Ge e e λλ≤≤，k ∀注意到2()T k k k e Ge E x = 即有： 22**12()n k k k x xE x x x λλ-≤≤-，k ∀从而有：22*1111112*112()()2()()k k nk n n k n n k k E x x xE x E x x x E x λλλλλλλλλλ+++-⎛⎫-=≤=≤ ⎪+-⎝⎭，（令1nλτλ=）最后得：*1*k k x x x x +-≤- 当目标函数为非二次函数时，最速下降算法的收敛速度依然是线性的。