4博弈分析详解
4微分博弈介绍

13 / 58
导弹攻击移动目标的最优控制
解: (引入“相对位置”“相对速度”)
x := xM − xT , v := vM − vT . 状态方程变为 ˙ = vM − vT = v, x ˙ = uM − uT . v (20) (21)
终值条件 x(tf ) = 0, v(tf ) free。性能指标不变 转化为和导弹攻击固定目标最优控制完 相同形式的问题,可使 用极值原理或动态规划求解
定理 1 (庞特里亚金极值原理, 1/2)
1
状态方程
x ˙ (t) = f (x(t), u(t), t), x(t0 ) = x0 . (4)
2
容许控制
u∈U ∫
tf
3
最小化性能指标
J (u) = h(x(tf ), tf ) +
g (x(t), u(t), t)dt.
t0
(5)
定义 Hamiltonian
tf
1 2 u (t) dt. 2
(3)
. . .
. .
.
. . . . . . . .
. . . . . . . .
. . . . . . . . .
. .
. .
. .
. .
.
Fei-Yue, Wang (CASIA)
Optimal Control
最优控制介绍
4 / 58
欧拉-拉格朗日方程
∂g d ∂g (x(t), x ˙ (t), t) − [ (x(t), x ˙ (t), t)] = 0. ∂x dt ∂ x ˙ 考察 ∆J = 0 的必要条件:驻值条件 需假定 g 可微 在最优解 x 连续可微时成立
. .
博弈论4

对纳什均衡的理解
纳什均衡是一种策略组合,使得每个参与人 的策略是对其他参与人策略的最优放应。纳什 均衡是博弈将会如何进行的“一致” (consistent)预测,这意指,如果所有参与人 预测特定纳什均衡会出现,那么没有参与人有 动力采用与均衡不同的行动。因此纳什均衡 (也只有纳什均衡)能具有性质使得参与人能 预测到它,预测到他们的对手也会预测到它, 如此继续。与之相反,任何固定的非纳什均衡 如果出现就意味着至少有一个参与人“犯了 错”,或者是对对手行动的预测上犯了错,或 者是(给定那种预测)在最大化自己的收益时 犯了错。 (Jean Tirole)
2.1.3 划线法
思路: 先找出自己针对其他博弈方每种策略或策略 组合(对多人博弈)的最佳对策,即自己的可选 策略中与其他博弈方的策略或策略组合配合,给 自己带来最大得益的策略,然后在此基础上,通 过对其他博弈方策略选择的判断,包括对其他博 弈方对自己策略判断的判断等,预测博弈的可能 结果和确定自己的最优策略。
对纳什均衡的理解
纳什均衡通过了一致预测检验并不就使得 它们是好的预测,在一些博弈格局中如果认为 可以获得精确预测那会过于轻率,由此我们想 提请注意一个事实,博弈的最可能结果实际上 取决于比标准式所提供的更多的信息。例如, 可能希望知道参与人对于此类博弈具有多少经 验,他们是否来自同一种文化因此而分享关于 博弈将会如何进行的特定期望,以及如此等等。 (Jean Tirole)
猪 等 待
猜硬币博弈
猜硬币方 正 面 盖 硬 正 面 币 反 面 方 -1,1 1,-1 猜硬币博弈 反 面 1,-1 -1,1
夫妻之争
丈 时 装 妻 时 装 子 足 球 2,1 0,0 夫妻之争
夫 足 球 0,0 1,3
博弈论第四讲动态博弈

制止
(-2,5) 制止
仿冒
A 不仿冒
B
不制止 (0,10)
仿冒
A
B 不制止
不仿冒 (5,5)
(2,2)
(10,4)
节点: 边: 终节点:
引子
每一阶段节点数、每一个选择节点的可选行为 数量,都可以不同,比如
仿冒更多次数、仿冒的规模和程度、制止仿冒的力 度
也不是所有动态博弈都可以用扩展形
阶段很多,或在一个阶段有很多可以选择的行为, 如下棋
双寡头竞争:古诺(Cournot)博弈
设一市场有1,2两家厂商生产同样的产品。如果厂商1的产量为 q1,厂商2的产量为q2 ,则市场总产量为Q= q1+ q2 。设市场出 清价格P是市场总产量的函数P(Q)=a-(q1+q2)
两个企业同时选择产量,价格由市场决定; 假设每家公司的成本函数相同,并且每单位成本不随生产的数量
古诺寡头模型扩展--斯塔克博 格模型(Stackelberg)
先分析第二个厂商的决策:?
因为其决策时,厂商1的选择q1实际上已经决定了, 并且厂商2知道q1,因此对厂商2来说,相当于在给 定q1的情况下求使II2实现最大的q2 ,
II2对q2求导,得到q2必须满足:a-c- q1 -2 q2 =0, 即q2 *=(a-c- q1)/2
法律保障 --单次 企业信用体系--全寿命,一旦有失信发生,它的信用记录
有一笔摸不去的黑,将来它做生意也好,向银行贷款也好, 都会受此影响。所以国外企业对信用问题看的非常严重-- 电子商务的信用记录
关键在于必须增加一些对甲行为的制约!
在上面,甲选择不分,乙完全无可奈何;只能采取消极办法 -不借,保护自己不被骗
变化。更正规一些,每家公司具有常数边际成本函数;C(qi ) cqi
博弈论课件4两人博弈

这个新的博弈中的劣策略;继续这个过程,直到
没有劣策略存在。如果剩下的策略组合是唯一的,
这个唯一的策略组合就是“重复剔除占优均
衡”(iterated dominance equilibrium)。
• 如果这样的解存在,我们说该博弈是“重复剔除
占优可解的”(iterated dominance solvable).
2021/8/4
2,8
1,6
1,8
0,8
0,8
0,6
1,5
0,8
0,9
中南财经政法大学信息学院
26
方法2)博弈方Ⅰ的策略“S”和“D”都是策略“U”的下
策(是严格下策), 消去策略“S”和“D” 后为:
L
M
R
U
2,8
1,6
1,8
博弈方Ⅱ的策略“M”和“R”都是策略“L”的下策(但
不是严格下策) ,消去策略“M”和“R”后剩下策略组合
1
3
1 (4,3) (6,2)
③二次保持严优策略后,局中人甲只保留了纯策
略α1,这时局中人乙也应选择纯策略β1 。
例2、用严劣策略剔除法分析下面博弈
G={S1,S2,C}
1
2
2021/8/4
1
(8,10)
(7,6)
2
(100
,9)
(6,5)
中南财经政法大学信息学院
5
A.
B.
C.
D.
主动去按按钮;
等大猪去按,如果大猪不去在去按;
去按按钮,然后快速跑向猪食;
耐心等待,决不去按按钮。
E. 分析:智猪博弈的盈利矩阵为
博弈课件第一章动态博弈4

系,是不能分割的整体. 因此在动态博弈中,研究某 个博弈方某个阶段的行为, 或者将各个阶段的行为割 裂开来研究是没有意义的. 动态博弈中某博弈方的策略 是指轮到他选择时, 针对前面阶段的各种情况,以及后续阶段可能的选择 所作相应选择的完整计划. 动态博弈的结果 包括双方(或多方)采用的策略 组合、实现的博路径和各博弈方的收益. 四、动态博弈的非对称性 因为动态博弈中各个博弈方的行为选择有先后次 序的,且后行为者能观察到此前博弈方的行为选择, 因此动态博弈中各博弈方的地位是不对称的. 另外,在 动态博弈中各博弈方的阶段选择不一定是交替进行的.
a1A1
假定参与者1的这一最优化问题也有唯一解, 表示为 a1 ,我们称 (a1 , R(a1 ))是这一博弈的逆向归纳解. 逆向归纳解不含有不可置信的威胁:因为参与者1能够 预测到参与者2 对1的可能选择的最优反应, 这一预测
排除了参与者2不可置信的威胁. 逆向归纳法背后的理性假设. 看下例三阶段两个参与者的动态博弈. 三阶段两个参与者的动态博弈的博弈树表示.
三阶段的“打”并不需要真正实施,但它是保证第 二阶段甲会分的关键,乙的策略中必须包含这个选 择. 既然双方上述策略构成一个纳什均衡,它应该 是具有稳定性的,但事实上乙根本就不会选择 “借” . 为什么会出现这种矛盾呢?主要在于乙第三阶段 的“起诉”是不可信的. 纳什均衡在动态博弈可能缺乏稳定性的根源在于 它不能排除博弈方策略中所包含的不可信的行为设定 不能解决动态博弈的相机选择引起的可信性问题. 动态博弈的有效分析概念,除了要符合纳什均衡 的基本要求以外,还必须满足另一个关键的要求,那 就是它(或者它们)必须能够排除博弈方策略中不可
博弈的结果: (借,还)
案例:开金矿博弈 版本3:法律保障不足的开金矿博弈 P1 不 还 P1
博弈第三、四章

• 可信性问题
– 开金矿 – 先来后到
• 子博弈和逆推归纳法
– 动态博弈中的子博弈 – 逆推归纳法 – 子博弈完美纳什均衡
可信性问题
• 可信性:是指动态博弈中先行为的博弈 可信性: 方是否该相信后行为的博弈方会采取对 自己有利的或不利的行为。 自己有利的或不利的行为。
– 后行为方将来会采取对先行为方有利的行 为相当于一种“ 许诺” 为相当于一种 “ 许诺 ” , 而将来会采取对 先行为方不利的行为相当于一种“ 威胁” 先行为方不利的行为相当于一种 “ 威胁 ” , 可将可信性分为“ 许诺的可信性” 可将可信性分为 “ 许诺的可信性 ” 和 “ 威 胁的可信性” 胁的可信性”。 – 许诺或威胁都不必是直接讲出来的。 许诺或威胁都不必是直接讲出来的。
Conclusion of stackelberg model
与古诺模型的结果相比, 与古诺模型的结果相比,斯塔克博格模型的结果 有很大的不同。它的产量(Q=4.5)大于古诺模 有很大的不同。它的产量(Q=4.5) Q=4),价格(P=8-4.5=3.5) ),价格 型(Q=4),价格(P=8-4.5=3.5)低于古诺 模型(P=8-4=4),总利润( ),总利润 模型(P=8-4=4),总利润(两厂商得益之和 =6.65)小于古诺模型(两厂商得益之和=8 =6.65)小于古诺模型(两厂商得益之和=8) =8) 本博弈也揭示了这样一个事实, 本博弈也揭示了这样一个事实,即在信息不对称 的博弈中, 的博弈中,信息较多的博弈方不一定能得到较多 的得益
是原博弈本身,我们不称它为原 是原博弈本身, 博弈的子博弈。 博弈的子博弈。即第一个节点不 能作为子博弈的初始节点
1 进 2 打击 (3,6) 不打击 (5,8) (0,10) 不进
四方博弈模型的纳什均衡

四方博弈模型的纳什均衡纳什均衡是博弈论中的一个重要概念,指的是在博弈中每个参与者根据其他参与者的策略选择,无法通过单方面改变自己的策略来获得更好的结果。
四方博弈模型是博弈论中常见的一种情景,即有四个参与者进行博弈。
在四方博弈模型中,每个参与者都面临着多种策略的选择。
他们的目标是通过选择最优的策略来获得最大的利益。
而在纳什均衡中,每个参与者的策略选择都是最佳响应其他参与者的策略选择的结果。
假设有四个参与者A、B、C和D,他们分别可以选择策略X、Y和Z。
他们的目标是通过选择最优的策略来获得最大的利益。
在四方博弈模型中,每个参与者的策略选择都会影响其他参与者的利益,因此他们需要考虑其他参与者的策略选择。
在纳什均衡中,每个参与者的策略选择都是最佳响应其他参与者的策略选择的结果。
也就是说,如果每个参与者选择了最优的策略,其他参与者也无法通过改变自己的策略来获得更好的结果。
这种情况下,博弈达到了均衡状态。
在四方博弈模型中,纳什均衡可以有多个。
这是因为每个参与者都可以有多种策略选择,而其他参与者的策略选择也会影响到最终的结果。
因此,在选择策略时,参与者需要综合考虑自己的利益和其他参与者的策略选择。
为了找到纳什均衡,参与者可以通过分析其他参与者的策略选择和利益来确定自己的最优策略。
在这个过程中,参与者需要考虑到其他参与者的行为和可能的反应,以及自己的利益和目标。
只有当每个参与者的策略选择都是最佳响应其他参与者的策略选择时,博弈才能达到纳什均衡。
纳什均衡在实际生活中有着广泛的应用。
例如,在市场竞争中,各个企业通过选择最优的策略来争夺市场份额。
在政治博弈中,各个政党通过选择最优的策略来争取选民支持。
在国际关系中,各个国家通过选择最优的策略来维护自身利益。
然而,纳什均衡并不一定是最优的结果。
在某些情况下,参与者可能通过合作或协商达到更好的结果。
但是,在没有合作或协商的情况下,纳什均衡是参与者可以依靠的最佳策略选择。
四方博弈模型的纳什均衡是参与者在博弈中选择最优策略的结果。
4博弈分析

二、策略集合
一个博弈中 ,可供局中人选择的一个实际可行的完整的行动方案称为
一个策略。参加博弈的每一个局中人 i ( i∈I) 的策略集合记为Si , 一般地,
每一局中人的策略集合中至少应包括两个策略。
如在“齐王赛马”中, 如果用(上、中、下)表示以上马、中马、下 马依次参赛,那么它就是一个完整的行动方案,即为一个策略。可见, 齐 王和田忌各自都有六个策略 (3!个):(上、中、下)、(上、下、中 )(, 中、 上、下)、(中、下、上)、(下、上、中)、(下、中、上)、
就是一个典型的博弈现象。
博弈现象的一个共同特点 是:参加斗争的各方具有完全不同的利益
和目标。为了达到各自的利益和目标,各方必须充分考虑和估计对手可
能采取的各种行动方案,并针锋相对地选择对自己最有利或最合理的方
案。博弈论就是专门研究博弈现象中各方是否存在最合理的行动方案,
以及如何找到合理的行动方案的数学理论和方法。
7
二、差旅问题
某人要由甲地去乙地出差 ,汽车公司规定 ,到乙的单程车票是 35 元,来
策、凸博弈、随机博弈 等。 在众多的博弈模型中,有重要地位的是 二人有限零和博弈 ,又称
矩阵博弈。这类博弈是到目前为止在理论研究和求解方法方面都比较完
善的一个博弈论分支。尽管矩阵博弈基本上是一类最简单的博弈论模型, 但其研究的思想和方法具有十分重要的代表性,体现了博弈论的一般思 想和方法,而且它的研究结果也是研究其它博弈模型的基础,因此, 基于 这些认识,本章将主要介绍矩阵博弈的基本内容。
后,一个博弈模型也就确定了。
4.1.3 博弈问题举例
一、招揽乘客问题
有两家客运公司 A 和 B,同时服务于甲、乙两地之间,每年在这个
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
博弈分析的目的
找出博弈的均衡解,以促使博弈各方导向更优 的决策 博弈分析包括:
– –
–
一,博弈的表达Biblioteka 二,基本的博弈分析方法 三,复杂博弈的转化及分析
博弈的表达
策略式:常用于表示静态博弈 扩展式:常用于表示动态博弈 两种表达方式具有等价性
博弈的策略式
博弈的“标准式”,也称正则式或矩阵式 例,
简单博弈分析方法
严格占优策略均衡解 重复剔除严格劣策略均衡解 划线法 箭头法
严格占优策略均衡解(Dominant-strategy Equilibrium)
在博弈中,如果在其他参与者任意的策略组合 下,参与者i存在一个策略si*,使得对于任意 的si∈Si,si*≠si,均有i的收益 ui(s1,· · · ,si*,· · · ,sn)>ui(s1,· · · ,si,· · · ,sn)成立, 则称为si*参与者i的严格占优策略。严格优策 略是在其他参与者任意策略组合下,参与者i 优于其它策略收益的策略。
囚徒乙 坦白 抵赖
囚 坦白 徒 甲 抵赖
-5,-5 -8,0
0,-8 -1,-1
收益:(囚徒甲,囚徒乙)
当博弈有两个以上的参与者时,博弈的策略式可以用 参与者、策略、收益来表达:
– – –
–
G={S1,S2,· · · ,Sn:U1,U2,· · · Un},或简写为G={S,U},其中, (1)参与者集合。用N={1,2,· · · ,n}来表示有n个参与者; (2)行动集合。用Si={sij}来表示第i个参与者的行动集合, 其中sij表示第i个参与者的第j个行动; (3)收益函数。用Ui={sij,spm},i=1,2,· · · ,n,j=1,2,· · · m, 表示对应于博弈参与者i的某一行动sij与其它参与者p的m个可 选行动组合下参与者i的收益。
逐步剔除严格劣策略均衡(IEDS)
严格劣策略:如果参与者i的策略si’所带来的收益 总少于其他任何策略,则称si’为严格劣策略。 IEDS过程:参与者1知道参与者2是理性的,将不 选择严格劣策略,故先划去对2来说的严格劣策略; 再分析并找出自己的严格劣策略,划去;…直至 找出逐步剔除严格劣策略均衡解。 重复剔除严格劣策略求均衡解的方法不能运用到 弱劣策略中
在一个博弈中,如果每个参与者都有严格占优策略, 则由严格占优策略组成的策略组合一定是该博弈的唯 一均衡解,称为该博弈的严格占优策略均衡解 囚徒乙 坦白 抵赖 例,
囚 坦白 徒 甲 抵赖 -5,-5 -8 ,0 0,-8 -1,-1 收益:(囚徒甲,囚徒乙)
对于囚徒甲,对应于囚徒乙的坦白与抵赖选择,坦白 时的收益为-5,0,抵赖时的收益为-8,-1。因而 无论对方的选择是什么,坦白总是优于抵赖,坦白是 囚徒甲的严格占优策略。对囚徒乙也是如此。因而, (坦白,坦白)就是囚徒困境的严格占优策略解。
如果我们通过这样的过程求得惟一的策略组合, 则这个策略组合为逐步剔除严格劣策略均衡, 并称博弈是逐步剔除严格劣策略可解的。 试分析: 参与者2
左
上 1,0 0,3
中
1,2 0,1
右
0,1 2,0
参与者1
下
收益:(参与者1,参与者2)
左 上 参与者1 下
上 参与者1 下
参与者2 中
博弈的扩展式
也称博弈的展开式 把一个有n个参与者的博弈用一株有根的树来 表示,根表示选择的始点,是最初的决策结点, 从根出发,参与者顺次做出决定,每一个选择 形成一个方案枝,直到博弈结束。每一条从根 出发到达终结点的路线都是一个参与者方案的 排列组合,对应一个含各参与者的收益集合。 扩展式表达形成了一个有始点、定向无循环的 树型图,因而也被称为博弈树。
例,囚徒困境可以表达为: G={S1,S2;U1,U2},
– –
–
(1)参与者集合。N={1,2};表示有两个参与者:囚徒1和 2; (2)行动集合。S1={s11,s12},S2={s21,s22};分别表示囚徒 1有两个可选行动:坦白,抵赖;囚徒2有两个可选行动:坦 白,抵赖; (3)收益函数。U1(s11,s21)=-5,u1(s11,s22)=0, u1(s12,s21)=-8,u1(s12,s22)=-1;u2(s11,s21)=-5,u2 (s11,s22)=-8,u2 (s12,s21)=0,u2(s12,s22)=-1。故U1= (-5,0,-8,-1),U2=(-5,0,-8,-1)。
S 0 -8
C -8 0
收益:(囚徒甲,囚徒 乙)
1 L R
c1c2
2
参与者2 c1d d1c2 (2,1) (3,3)
2
d1d2 (4,2) (3,3)
2
c1 2 1 d1 4 2 c2 5 2
d2 3 3
参与者 L 1 R
(2,1) (5,2)
(4,2) (5,2)
例:A、B玩游戏报数,从1至10,每次报1个 或2个数,报30的输。试试看,写出其扩展型。
1
L 2
c1 2 1 d1 4 2 c2 5 2
R 2
d2 3 3
策略式与扩展式描述的等价性
每一个扩展式博弈都可以用策略式来表达,而 每一个策略式博弈也可以表达成扩展式
囚徒乙 坦白 抵赖 囚 坦白 徒 甲 抵赖 -5,-5 -8,0 0,-8 -1,-1 囚徒2 C -5 -5
C
囚徒1 S 囚徒2 S -1 -1
重复剔除严格劣策略均衡解(IEDS)
在博弈中,如果参与者i有两个可行策略si',si",对 于任意其他参与者的策略组合,有 ui(s1,· · · ,si‘,· · · ,sn) >ui(s1,· · · , si“,· · · ,sn)成立,则si” 就称为相对于策略si’的严格劣策略。即参与者i的策 略si“的收益总是劣于策略 si‘的收益,则称si”为参 与者i的严格劣策略。 性的博弈参与者绝不会选择严格劣策略,因而,可以 通过不断剔除博弈参与者的严格劣策略得到博弈的均 衡解。这种方法称为重复剔除严格劣策略均衡解 (Iterative Elimination of Dominated Strategy)的方 法。