动态规划与随机控制

合集下载

最优控制理论的发展与展望.

最优控制理论的发展与展望.

最优控制理论的发展与展望[1]最优控制理论是20 世纪60 年代迅速发展起来的现代控制理论中的主要内容之一,它研究和解决的是如何从一切可能的方案中寻找一个最优的方案。

1948 年维纳等人发表论文,提出信息、反馈和控制等概念,为最优控制理论的诞生和发展奠定了基础。

我国著名学者钱学森在1954 年编著的《工程控制论》直接促进了最优控制理论的发展。

美国著名学者贝尔曼的“动态规划”和原苏联著名学者庞特里亚金的“最大值原理”是在最优控制理论的形成和发展过程中,最具开创性的研究成果,并开辟了求解最优控制问题的新途径。

此外,库恩和图克共同推导的关于“不等式约束条件下的非线性最优必要条件(库恩—图克定理) ”及卡尔曼的关于“随机控制系统最优滤波器”等是构成最优控制理论及现代最优化技术理论基础的代表作。

[1][1]鲁棒控制是针对不确定性系统的控制系统的设计方法,其理论主要研究的问题是不确定性系统的描述方法、鲁棒控制系统的分析和设计方法以及鲁棒控制理论的应用领域。

鲁棒控制理论发展的最突出的标志之一是H∞控制。

H∞控制从本质上可以说是频域内的最优控制理论。

鲁棒控制与最优控制结合解决许多如线性二次型控制、电机调速、跟踪控制、采样控制、离散系统的镇定、扰动抑制等实际问题。

[2]近年来,最优控制理论[1,2]的研究,无论在深度和广度上,都有了很大的发展,已成为系统与控制领域最热门的研究课题之一,取得了许多研究成果。

同时,也在与其他控制理论相互渗透,出现了许多新的最优控制方式,形成了更为实用的学科分支。

例如鲁棒最优控制[3]、随机最优控制[4]、分布参数系统的最优控制[5]、大系统的次优控制[6]、离散系统的最优控制及最优滑模变结构控制[7,8]等。

而对于非线性系统,其最优控制求解相当困难,需要求解非线性HJB 方程或非线性两点边值问题,除简单情况外[9],这两个问题都无法得到解析解。

因此,许多学者都致力于寻求近似的求解方法[10~13],通过近似解得到近似的最优控,即次优控制。

动态规划

动态规划
f1(A)=MIN r(A,B1)+ f2(B1) r(A,B2)+ f2(B2)
=MIN(3+12,4+10)=14
最短路线: A—— B2 ——C2——D2——E2——F 最优解: d1*(A)= B2,最短用时14
1
B2
C3
4 2
D3
5
E2
4
A
2
C2
3 3 3
D2
2
F
3
B1
5 4
C1
4
2
E1
最优解: d2*(B1)= C1
1
B2
C3
4 2
D3
5
E2
4
A
2
C2
3 3 3
D2
2
F
3
B1
5 4
C1
4
2
E1
4
3
D1
A
B
C
D
E
F
如果S2=B2,则下一步能取C2或C3,故
f2(B2)=MIN r(B2,C2)+ f3(C2)
r(B2,C3)+ f3(C3) =MIN(2+8,1+11)=10
最短路线: B2 ——C2——D2——E2——F
1
B2
C3
4 2
D3
5
E2
4
A
2
C2
3 3 3
D2
2
F
3
B1
5 4
C1
4
2
E1
4
3
D1
A
B
C
D
E
F
如果S4=D3,则下一步只能取E2,故

动态规划

动态规划

多阶段决策问题中,各个阶段采取的决策,一般来说是与时间有关的,决策依赖于当前状态,又随即引起状 态的转移,一个决策序列就是在变化的状态中产生出来的,故有“动态”的含义,称这种解决多阶段决策最优化 问题的方法为动态规划方法 。
任何思想方法都有一定的局限性,超出了特定条件,它就失去了作用。同样,动态规划也并不是万能的。适 用动态规划的问题必须满足最优化原理和无后效性 。
动态规划
运筹学的分支
01 原理
03 局限性
目录
02 分类
动态规划(Dynamic Programming,DP)是运筹学的一个分支,是求解决策过程最优化的过程。20世纪50年 代初,美国数学家贝尔曼(R.Bellman)等人在研究多阶段决策过程的优化问题时,提出了著名的最优化原理, 从而创立了动态规划。动态规划的应用极其广泛,包括工程技术、经济、工业生产、军事以及自动化控制等领域, 并在背包问题、生产经营问题、资金管理问题、资源分配问题、最短路径问题和复杂系统可靠性问题等中取得了 显著的效果 。
最优化原理可这样阐述:一个最优化策略具有这样的性质,不论过去状态和决策如何,对前面的决策所形成 的状态而言,余下的诸决策必须构成最优策略。简而言之,一个最优化策略的子策略总是最优的。一个问题满足 最优化原理又称其具有最优子结构性质 。
将各阶段按照一定的次序排列好之后,对于某个给定的阶段状态,它以前各阶段的状态无法直接影响它未来 的决策,而只能通过当前的这个状态。换句话说,每个状态都是过去历史的一个完整总结。这就是无后向性,又 称为无后效性 。
状态:状态表示每个阶段开始面临的自然状况或客观条件,它不以人们的主观意志为转移,也称为不可控因 素。在上面的例子中状态就是某阶段的出发位置,它既是该阶段某路的起点,同时又是前一阶段某支路的终点 。

第6章动态规划

第6章动态规划

第6章 动态规划动态规划(Dynamic Programming )是解决多阶段决策过程最优化的一种有用的数学方法。

它是由美国学者Richard .Bellman 在1951年提出的,1957年他的专著《动态规划》一书问世,标志着运筹学的一个重要分支-动态规划的诞生.动态规划也是一种将多变量问题转化为单变量问题的一种方法。

在动态规划中,把困难的多阶段决策问题变换成一系列相互联系的比较容易的单阶段问题一个个地求解。

动态规划是考察解决问题的一种途径 ,而不是一种特殊的算法,不像线性规划那样有统一的数学模型和算法(如单纯形法).事实上,在运用其解决问题的过程中还需要运用其它的优化算法。

因此,动态规划不像其它方法局限于解决某一类问题,它可以解决各类多阶段决策问题。

动态规划在工程技术、经济管理等社会各个领域都有着广泛的应用,并且获得了显著的效果。

在经济管理方面,动态规划可以用来解决最优路径问题、资源分配问题、生产调度问题、库存管理问题、排序问题、设备更新问题以及生产过程最优控制问题等,是经济管理中一种重要的决策技术。

许多规划问题用动态规划的方法来处理,常比线性规划或非线性规划更有效。

特别是对于离散的问题,由于解析数学无法发挥作用,动态规划便成为了一种非常有用的工具。

动态规划可以按照决策过程的演变是否确定分为确定性动态规划和随机性动态规划;也可以按照决策变量的取值是否连续分为连续性动态规划和离散性动态规划。

本教材主要介绍动态规划的基本概念、理论和方法,并通过典型的案例说明这些理论和方法的应用。

6.1动态规划的基本理论6.1.1多阶段决策过程的数学描述有这样一类活动过程,其整个过程可分为若干相互联系的阶段,每一阶段都要作出相应的决策,以使整个过程达到最佳的活动效果。

任何一个阶段(stage ,即决策点)都是由输入(input )、决策(decision )、状态转移律(transformation function )和输出(output )构成的,如图6-1(a )所示.其中输入和输出也称为状态(state ),输入称为输入状态,输出称为输出状态。

动态规划的应用举例大全

动态规划的应用举例大全
多背包问题
在0/1背包问题的基础上,通过动态规 划的方式解决多个约束条件下的物品 选择问题。
排程问题
作业车间调度问题
通过动态规划的方式,求解给定一组作业和机器,如何分配作业到机器上,使得 完成时间最早且总等待时间最小。
流水线调度问题
通过动态规划的方式,解决流水线上的工件调度问题,以最小化完成时间和总延 误时间。
应用场景
在基因组测序、进化生物学和生物分类学等领域中,DNA序列比对是关键步骤。通过比对,可以发现物种之间的相 似性和差异,有助于理解生物多样性和进化过程。
优势与限制
动态规划算法在DNA序列比对中具有高效性和准确性,能够处理大规模数据集。然而,对于非常长的序 列,算法可能需要较长时间来运行。
蛋白质结构预测
应用场景
深度学习中的优化算法广泛应用于语音识别、图像处理、 自然语言处理等领域,动态规划可以帮助提高训练效率和 模型的准确性。
自适应控制和系统优化
问题描述
动态规划方法
自适应控制和系统优化是针对动 态系统的优化和控制问题。在这 些问题中,动态规划可以用于求 解最优控制策略和系统参数调整。
通过定义状态转移方程和代价函 数,将自适应控制和系统优化问 题转化为动态规划问题。状态表 示系统的当前状态和参数,代价 函数描述了在不同状态下采取不 同行动的代价。
考虑风险因素和概率
动态规划可以考虑到风险因素和概率,以制定最优的风险评估和管 理策略。
考虑风险承受能力和资本充足率
动态规划可以考虑到风险承受能力和资本充足率,以制定最优的风 险评估和管理策略。
04 动态规划在生物信息学中 的应用
DNA序列比对
算法描述
DNA序列比对是生物信息学中常见的问题,通过动态规划算法可以高效地解决。算法将DNA序列视为字符串,并寻 找两个或多个序列之间的最佳匹配。

随机控制理论

随机控制理论

随机控制理论的一个主要组成部分是随机最优控制,这类随机控制问题的求解有赖于动态规划的概念和方法。

简介随机控制理论随机控制理论的目标是解决随机控制系统的分析和综合问题。

维纳滤波理论和卡尔曼-布什滤波理论是随机控制理论的基础之一。

内容控制理论中把随机过程理论与最优控制理论结合起来研究随机系统的分支。

随机系统指含有内部随机参数、外部随机干扰和观测噪声等随机变量的系统。

随机变量不能用已知的时间函数描述,而只能了解它的某些统计特性。

自动控制系统分为确定性系统和不确定性系统两类,前者可以通过观测来确定系统的状态,后者则不能。

随机系统是不确定性系统的一种,其不确定性是由随机性引起的。

严格地说,任何实际的系统都含有随机因素,但在很多情况下可以忽略这些因素。

当这些因素不能忽略时,按确定性控制理论设计的控制系统的行为就会偏离预定的设计要求,而产生随机偏差量。

涉及领域飞机或导弹在飞行中遇到的阵风,在空间环境中卫星姿态和轨道测量系统中的测量噪声,各种电子装置中的噪声,生产过程中的种种随机波动等,都是随机干扰和随机变量的典型例子。

随机控制系统的应用很广,涉及航天、航空、航海、军事上的火力控制系统,工业过程控制,经济模型的控制,乃至生物医学等。

研究课题随机控制理论研究的课题包括随机系统的结构特性和运动特性(如动态特性、能控性、能观测性、稳定性)的分析,随机系统状态的估计,以及随机控制系统的综合(即根据期望性能指标设计控制器)。

随机系统中含有随机变量,所以在研究中需要使用随机过程的基本概念和概率统计方法。

严格实现随机最优控制是很困难的。

对于线性二次型高斯(LQG)随机过程控制问题,包括它的特例最小方差控制问题,可以应用分离原理把随机最优控制问题分解成状态估计问题和确定性最优控制问题,最终能得到全局最优的结果。

但对于一般的随机控制问题应用分离原理只能得到次优的结果。

随机状态模型随机系统在连续时间情形下的动态过程,常可用随机微分方程随机微分方程描述,式中x(t)为状态向量,d x(t)为由时刻t至t+d t状态的增量,u(t)为控制输入,θ为随机参数,w(t)为独立增量随机过程,其微分d w(t)可理解为白噪声。

离散控制系统的性能指标评估与优化

离散控制系统的性能指标评估与优化

离散控制系统的性能指标评估与优化离散控制系统是指由离散信号进行控制的系统,它在工业自动化领域中起着重要的作用。

离散控制系统的性能指标评估与优化是改进系统响应、提高控制效果的关键环节。

本文将从离散控制系统的性能指标评估、常见优化方法以及实例分析三个方面进行论述。

一、离散控制系统的性能指标评估离散控制系统的性能评估是对系统的控制效果进行客观、定量的衡量。

常见的性能指标包括稳态误差、动态响应特性和稳定性等。

1. 稳态误差稳态误差是系统输出与期望输出之间的差异,反映了系统的稳态控制精度。

常见的稳态误差指标包括零误差常数Kp、静态误差和稳定误差。

2. 动态响应特性动态响应特性是指系统对输入信号的响应速度和质量。

常用的动态响应特性指标有上升时间Tr、峰值时间Tp、超调量Mp和调节时间Ts。

3. 稳定性稳定性是保证系统正常工作的基本要求,用于评估系统是否具有良好的鲁棒性和稳定性。

常见的稳定性指标包括极点位置、幅值裕度和相位裕度等。

二、离散控制系统的优化方法离散控制系统的优化方法旨在改善系统的性能指标,提高系统的控制效果。

常见的优化方法包括PID控制器参数调整、模型预测控制、最优控制和自适应控制等。

1. PID控制器参数调整PID控制器是离散控制系统中常用的控制器,通过合理地调整PID控制器的参数可以改善系统的稳态误差和动态响应特性。

常用的参数调整方法有经验法则法、Ziegler-Nichols法和模糊PID控制等。

2. 模型预测控制模型预测控制是一种基于系统模型进行预测的控制方法,通过优化控制输入来实现系统的性能优化。

它可以对系统的未来状态进行预测,并在当前时刻采取合适的控制动作。

常用的模型预测控制方法有基于模型的预测控制和自适应模型预测控制等。

3. 最优控制最优控制方法通过优化控制输入来实现系统性能的最优化。

常用的最优控制方法包括线性二次调节器(LQR)、最优随机控制和最优动态规划等。

4. 自适应控制自适应控制方法是指根据系统的实时情况自动调整控制参数以适应系统的变化。

现代控制理论

现代控制理论

现代控制理论是在20世纪50年代中期迅速兴起的空间技术的推动下发展起来的。

空间技术的发展迫切要求建立新的控制原理,以解决诸如把宇宙火箭和人造卫星用最少燃料或最短时间准确地发射到预定轨道一类的控制问题。

这类控制问题十分复杂,采用经典控制理论难以解决。

1958年,苏联科学家Л.С.庞特里亚金提出了名为极大值原理的综合控制系统的新方法。

在这之前,美国学者R.贝尔曼于1954年创立了动态规划,并在1956年应用于控制过程。

他们的研究成果解决了空间技术中出现的复杂控制问题,并开拓了控制理论中最优控制理论这一新的领域。

1960~1961年,美国学者R.E.卡尔曼和R.S.布什建立了卡尔曼-布什滤波理论,因而有可能有效地考虑控制问题中所存在的随机噪声的影响,把控制理论的研究范围扩大,包括了更为复杂的控制问题。

几乎在同一时期内,贝尔曼、卡尔曼等人把状态空间法系统地引入控制理论中。

状态空间法对揭示和认识控制系统的许多重要特性具有关键的作用。

其中能控性和能观测性尤为重要,成为控制理论两个最基本的概念。

到60年代初,一套以状态空间法、极大值原理、动态规划、卡尔曼-布什滤波为基础的分析和设计控制系统的新的原理和方法已经确立,这标志着现代控制理论的形成。

学科内容现代控制理论所包含的学科内容十分广泛,主要的方面有:线性系统理论、非线性系统理论、最优控制理论、随机控制理论和适应控制理论。

线性系统理论它是现代控制理论中最为基本和比较成熟的一个分支,着重于研究线性系统中状态的控制和观测问题,其基本的分析和综合方法是状态空间法。

按所采用的数学工具,线性系统理论通常分成为三个学派:基于几何概念和方法的几何理论,代表人物是W.M.旺纳姆;基于抽象代数方法的代数理论,代表人物是R.E.卡尔曼;基于复变量方法的频域理论,代表人物是H.H.罗森布罗克。

非线性系统理论非线性系统的分析和综合理论尚不完善。

研究领域主要还限于系统的运动稳定性、双线性系统的控制和观测问题、非线性反馈问题等。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

动态规划与随机控制1953年,R . Bellman 等人,根据某类多阶段序贯决策问题的特点,提出了著名的“最优性原理”。

在这个原理的指导下,他将此类多阶段决策问题转变为一系列的互相联系的单阶段决策问题,然后,逐个阶段予以解决,最后再形成总体解决。

从而创建了求解优化问题的新方法——动态规划。

1957年,他的名著《动态规划》出版。

1.离散型动态规划离散型确定性动态规划在解决美式期权问题时,我们通常采用倒向递推的方法来比较即时执行价格与继续持有价格。

这是利用动态规划原理的一个典型例子。

Richard Bellman在1953年首次提出动态规划原理.最优化原理:无论过去的状态和决策如何,相对于前面的决策侧所形成的的状态而言,余下的决策序列必然构成最优子策略.求解最短路径问题:来看下面一个具体的例子:我们要求从Q点到T点的最短路径其基本思想是分阶段求出各段到T点的最短路径:•Ⅳ:C1—T 3•Ⅲ--Ⅳ: B1—C1—T 4•Ⅱ--Ⅲ--Ⅳ:A2—B1—C1—T 7•Ⅰ--Ⅱ--Ⅲ--Ⅳ:•Q—A2—B1—C1—T 11•Q--A3—B1—C1—T 11•Q--A3—B2—C2—T 11从以上分析可以看出最短路径不唯一。

最短路径解的特点•1、可以将全过程求解分为若干阶段求解;------多阶段决策问题•2、在全过程最短路径中,将会出现阶段的最优路径;-----递推性•3、前面的终点确定,后面的路径也就确定了,且与前面的路径(如何找到的这个终点)无关;-----无后效性•3、逐段地求解最优路径,势必会找到一个全过程最优路径。

-----动态规划离散型不确定性动态规划离散型不确定性动态规划的特点就是每一阶段的决策不是确定的,是一个随机变量,带有一定的随机性,因此处理起来就相对复杂些。

一个动态规划的经典问题:你打算与一个你遇到的最富有的人结婚,你的最优策略是什么?这里做几点基本的假设:1、如果碰到满足你要求的人,他无条件接受;2、有N 个人供你选择;3、每个备选对象的财富值都服从[0, 1].区间上的均匀分布;那么你要找具有最大期望财富值的结婚对象的最优策略是什么?这是一个看似简单但是很难解决的问题.通常的方法是顺序递推法,如果首先考虑碰到第一个人的财富,接着考虑碰到下一个人的财富值与第一个人的财富值进行比较,依次进行下去,但是你期望下一个对象的财富值的确定是一个很复杂的问题,并且很难进行比较.因此这里我们考虑倒向递推的方法进行计算,我们首先逆向考虑一个简单的问题就是假如你只面对2个人的情况,当你只碰到倒数第一个人时,我们认为他的财富期望值为0.5,我们知道,你将选择与倒数第二个对象结婚时只有在他的财富值大于0.5的情况下,否则你将与倒数第一个对象结婚。

一般的,我们用N V 表示倒数第一个人的财富期望值,用1N W-表示表示倒数第二个人的财富值,假设你的最优行动时在倒数第二步,则倒数第二个人的财富期望值为:11111[](1)N N N N N N N V P E WW V P V -----=⨯|>+-⨯,这里 11()N N N P P W V --≡>一般的倒向递推公式就是:∙ 设 1()k k k P P W V +≡>,11()[](1)11NN k k k k k k k V E W V P E W W V P V k N ++==⨯|>+-⨯,=-,,,(1)k W 是倒数第k 个人的财富值,k V 是你在倒数第k 阶段的最优策略的财富期望值。

如果我们把取10N =,则此时我们可以算出10861V =.2.连续型动态规划问题确定性控制问题给定0x ∈ℜ,考虑一个如下控制问题0()(()())[0](0)x t b t x t u t a e t T x x =,,,..∈,,⎧⎨=,⎩ (2)()[0]u T U ⋅:,→是允许控制集,[0]{()A T u ,=⋅ 在[0]}T ,上可测 , U 是一个度量空间,0T >,[0]b T U :,⨯ℜ⨯→ℜ 为一给定的映射.则最优控制问题就是在控制系统(2)的条件下极小化如下成本函数(())(()())(())over [0]TJ u f t x t u t dt h x T A T ⋅=,,+,,,⎰ (3)对于给定的映射f 和h 。

值函数的确定设()[0)s y T ,∈,⨯ℜ;在区间[]s T ,考虑以下控制系统:()(()())[]()x t b t x t u t a e t s T x s y =,,,..∈,,⎧⎨=,⎩这里控制()[]{()|()u A s T u u ⋅∈,=⋅⋅是区间[]}s T ,上可测函数。

则成本函数就是如下函数:(())(()())(())TsJ s y u f t x t u t dt h x T ,;⋅=,,+.⎰现在我们来定义如下形式的值函数:()[]()(())for any ()[0)()()u A s T V s y inf J s y u s y T V T y h y ⋅∈,,=,;⋅,,∈,⨯ℜ⎧⎨,=.⎩ (4)这里值函数就是在允许控制集的范围内,找出所有成本函数中的极小化函数并且满足一定的终止条件的函数。

定理 1.贝尔曼最优化原理 假设U 是可分的度量空间, f 和h 是一致连续,并且存在常数0L >使得对于()()()()t x u b t x u f t x u h x φ,,=,,,,,,,有ˆˆ|()()|||ˆ|(0)|for any [0]t x u t xu L x x t u L t T x xu U φφφ,,-,,≤-,,,≤,∈,,,∈ℜ,∈. 则对于任何()[0)s y T ,∈,⨯ℜ和任意ˆ0s sT ≤≤≤有:{}ˆˆ[]ˆˆ()(()())((()))su A s s sV s y inf f t x t u t dt V sx s u ∈,,=,,+,;⋅,⎰(5)方程(5)就是我们通常所讲的动态规划方程。

也就是说,全局最优一定导致局部最优,这也是贝尔曼原理的精髓。

定理2. HJB equation 如果值函数1([0])V C T ∈,⨯ℜ:则V 是如下带有终止条件的一阶偏微分方程(HJB equation )的解inf{()()}0|()()[0]t x u Ut T v b t x u v f t x u v h x t x T ∈=+,,+,,=,⎧⎪⎨=,,∈,⨯ℜ.⎪⎩ (6)定理的简要证明:固定u U ∈,让()x ⋅为控制()u t u ≡的相应状态轨迹,由贝尔曼原理ˆˆ()(())(())ssV s y f t x t u dt V s x s ,≤,,+,⎰,由()()0t x V b t x u V f t x u +,,+,,≥:对于任意u U ∈,有inf {()()}0t u U x V b t x u V f t x u ∈+,,+,,≥另一方面,对于任意ˆ00s sT ε>,≤<≤当ˆ0s s ->充分小,存在ˆ()()[]s u u A s T ε,⋅≡⋅∈,使得ˆˆˆ()()(()())(())ssV s y ss f t x t u t dt V s x s ε,+-≥,,+,⎰,这也就有inf {()t uU xV b t x u V f t x u∈+,,+,,≤。

例:考虑如下系统;30()()(),(0)x t x t u t x x ∙=+=目标函数为221()2f t J x u dt =+⎰ 解:根据以上分析,系统的拉格朗日型值函数为22311(,,,)22H x u t x u u x λλλ=++- 令则HJB equation 为若优化区间为无穷的大,则我们求解以下微分方程:为了求解上述非线性微分方程,将V(x)展开成如下级数形式:令n=4,则得所以最优控制作用为 闭环系统为随机控制问题设()Z t 为一布朗运动,我们考虑如下随机控制系统:0()(()())(()())()[0](0)dx t b t x t u t dt t x t u t dZ t t T x x σ=,,+,,,∈,,⎧⎨=,⎩ (7)定义区间[0]T ,上可测的允许控制集[0]{()A T u ,=⋅,和0{}t t F ≥是适应的,最优随机控制问题就是如下允许集[0]A T ,下的成本函数3222121),(,,0xx V x V x x V x H u x V u H ⎥⎦⎤⎢⎣⎡∂∂-⎥⎦⎤⎢⎣⎡∂∂-=∂∂-=∂∂==∂∂λλ可以得到02121232=+⎥⎦⎤⎢⎣⎡∂∂-⎥⎦⎤⎢⎣⎡∂∂-∂∂x x x V x V t V ((),)0V x t t t∂=∂02232=-⎥⎦⎤⎢⎣⎡+⎥⎦⎤⎢⎣⎡x x dx dV dx dV 0)0(=V 3)()(x x dx dVt t u +-=-=-=λ)()()()()()(333t x t x t x t x t u t x x -=+--=+-= +++++=44332210!41!31!21)(x p x p x p x p p x V 61042310=====p p p p p{}(())(()())(())TJ u Ef t x t u t dt h x T ⋅=,,+.⎰(8)值函数就是如下系统下的极小化函数:设()[0)ns y T ,∈,⨯ℜ,我们考虑区间[]s T ,上以下控制系统()(()())(()())()[]()dx t b t x t u t dt t x t u t dZ t t s T x s y σ=,,+,,,∈,,⎧⎨=,⎩ (9)这里控制()[]u A s T ⋅∈,,成本函数是{}(())(()())(())TsJ s y u E f t x t u t dt h x T ,;⋅=,,+⎰我们定义值函数如下:()[]()inf (())for any ()[0)()()nu A s T V s y J s y u s y T V T y h y ⋅∈,⎧,=,;⋅,,∈,⨯ℜ⎪⎨,=.⎪⎩ (10)定理 3 .贝尔曼最优化原理 对于任意()[0)ns y T ,∈,⨯ℜ和任意ˆ0s sT ≤≤≤有{}ˆˆ[]ˆˆ()inf ((())())((()))su A s s sV s y Ef t x t s y u u t dt V sx s s y u ∈,,=,;,,⋅,+,;,,⋅⎰定理4. HJB equation 如果值函数12([0])nV C T ,∈,⨯ℜ:则V 是以下带有终止条件问题的解:21inf{()()()}02|()()[0]t xx x u U n t T v t x u v b t x u v f t x u v h x t x T σ∈=⎧+,,+,,+,,=,⎪⎨⎪=,,∈,⨯ℜ.⎩ (11)3. Merton’s problem我们假设市场上只有两类资产进行投资:无风险资产(银行储蓄)和风险资产(股票),它们的价格分别定义为()B t 和()S t ,并且由以下方程决定:()()()()[()]dB t rB t dt dS t S t dt dZ t μσ=,⎧⎨=+,⎩ (12)这里0r >是无风险利率;0μ>和0σ>是常数分别称为股票的回报率期望值和波动率。

相关文档
最新文档