第六章 动态规划

第六章动态规划解析

第六章动态规划 6.1 动态规划的思想方法 6.1.1 动态规划的最优决策原理 活动过程划分为若干个阶段,每一阶段的决策,依赖于前一阶段的状态,由决策所采取的动作,使状态发生转移,成为下一阶段的决策依据。 P1P2 P n S0S1 S2┅┅S n-1 S n 图6.1 动态规划的决策过程 最优性原理:无论过程的初始状态和初始决策是什么,其余决策都必须相对于初始决策所产生的状态,构成一个最优决策序列。 S0 p(1,1) p(1,2) p(1,r1) s(1,1) s(1,2) s(1,r1) s(2,11) p(2,12) s(2,1r2) p(2,21) s(2,22) s(2,2r2) s(2,r11) s(2,r12) s(2,r1r2) 令最优状态为) (s,由此倒推: 22 ,2 s p p → ,2(s → → s→ ) )2,1( 22 )2,1( ) ,2( 22 最优决策序列,) p→ )2,1(p 22 ,2 ( 状态转移序列:) s 22 → 0s s→ ,2 ( )2,1( 赖以决策的策略或目标,称为动态规划函数。 整个决策过程,可以递归地进行,或用循环迭代的方法进行。 动态规划函数可以递归地定义,也可以用递推公式来表达。 最优决策是在最后阶段形成的,然后向前倒推,直到初始阶段; 而决策的具体结果及所产生的状态转移,却是由初始阶段开始进行计算的,然后向后递 6

6 归或迭代,直到最终结果。 6.1.2 动态规划实例、货郎担问题 例6.1 货郎担问题。 在有向赋权图>=

相关主题
相关文档
最新文档