博弈论第六章

合集下载

第六章 博弈论

第六章 博弈论

第二节 动态博弈
重复博弈 序列博弈
重复博弈
• 对重复博奕的研究结果证明有一种 最好的策略:只需将一个原则贯穿始终, 即“以牙还牙”(Tit-for-tat)。 • 以牙还牙策略的获胜有一个十分重 要的条件,即博弈是无限次重复的。
序列博弈
对局者选择策略有时间先后的顺序, 某些对局者可能率先采取行动。这种博 弈被称为序列博弈,序列博弈则是另一 种动态博弈形式。 市场进入的博弈
厂商A 厂商A
协调博弈
女 球赛 球赛 男 电影 0,0 , 1,2 , 2,1 , 电影 0,0 ,
混合策略
小偷与守卫的博弈 混合策略博弈的几个原则
小偷与守卫的博弈
守卫 睡 偷 小偷 不偷 0,2 , 0,0 , 6,- ,-2 ,- 不睡 -3,0 ,
混合策略博弈的几个原则
策略组合不可能是单一的策略或者纯策略, 而必须把不同的策略混合一起使用,这种博弈 也称之为“混合策略” 博弈,所达到的均衡 也称之为混合策略均衡。 第一,不能让对方事先知道自己可能采取 的策略。 第二,必须采取随机选择的原则。 第三,选择策略的概率一定要使对方无机 可乘。
第六章
博弈论
第一节 简单博弈
囚犯的困境与上策 纳什均衡 混合策略
囚犯的困境与上策
博弈论分析中的基本要素 囚犯的困境 相同市场份额厂商的价格战
博弈论分析中的基本要素
1. 对局者 2. 策略 3. 报酬
囚犯的困境
囚犯B 囚犯 坦白 坦白 不坦白 ,-5 -5,- ,- ,-1 -8,- ,- 不坦白 ,-8 -1,- ,- ,-2 -2,- ,-
市场进入的博弈
厂商B 厂商 进入 进入 厂商A 厂商 不进入 0,50 , 0,0 , ,-20 -20,- ,- 不进入 50,0 ,

第6章 博弈论

第6章  博弈论
13
二、博弈的要素
(一)构成要素
1、参与人players
一个博弈中的决策主体,其目的是通过选择战略(或 行动),以最大化自己的支付(效用)水平。
14
2、行动actions or moves 是参与人在博弈的某个时点的决策变量。 1)行动集合action set:可供某个参与人(i)选择 的所有行动的集合,写作Ai={ai}。 2)行动组合action profile:n个参与人的行动的有 序集a=(a1,„,ai,„,an)。 3)行动顺序the order of play:根据行动顺序,可 以将博弈分为静态博弈和动态博弈。因此,行动顺序 对于博弈结果非常重要。 在博弈论中,一般假定参与人的行动空间和行动顺 序是所有参与人的共同知识。
分析一下上述矩阵,可以发生囚犯A和B都面临一种两难境 地。如果他们都听从检察官的劝告而坦白的话,他们将
6
被判入狱5年;如果他们都选择不坦白的策略,他们都将只 被判2年。入狱2年当然比入狱5年要好得多,但问题是,即使 他们曾经订立攻守同盟,在背靠背后地被审讯的情况下,同 伙人还是可信任的吗?此时他们都将面临同伙人背叛的风险, 也就是面临被判8年的风险。特别是,如果检察官:“他已经 坦白了你还不坦白吗?”这两个囚犯谁还能守口如瓶呢?
29
(六)根据参与人对博弈进程信息,对动态博 弈进行划分
1.动态博弈中,若某参与人行动时,对此前行动的各 参与人(包括“自然”)的选择、行动完全了解,称为 “具有完美信息的”参与人。若其不完全了解此前全部 的博弈进程,称为“具有不完美信息的”参与人。
2.如果动态博弈中的所有参与人都是具有完美信息的, 则该动态博弈称为“完美信息动态博弈”,perfect information。若动态博弈中存在具有不完美信息的参 与人,该博弈称为“不完美信息动态博弈”, imperfect information。

经济博弈论第六章不完全信息静态博弈共39页

经济博弈论第六章不完全信息静态博弈共39页

11
27.04.2020
6.1.3 海萨尼转换
基本思路:将静态博弈转化为动态博弈 (1)假设有一个名为“自然”的博弈方0,该博弈
方的作用是先为其他每个博弈方抽取他们的类型, 抽取的这些类型构成类型向量
t=(t1,…,tn),其中t i T i ,i=1,…,n。
(2)“自然”让每个博弈方知道到自己的类型, 但却不让其他博弈方知道。
10
27.04.2020
6.1.2 静态贝叶斯博弈的一般表示
静态贝叶斯博弈的一般表达式为: G={A1,…,An ;T1,…,Tn;u1,…,un}
其中Ai为博弈方i的行为空间(策略空间), Ti是博弈方i的类型空间,博弈方i的得益 ui=ui(a1,…,an,ti)为策略组合(a1,…,an ) 和类型ti的函数。
q1*a2C1C3 H(1)CL)
6
27.04.2020
6.1.1 不完全信息的古诺模型
与完全信息古诺模型比较 完全信息古诺模型中的的产量
q1*
a2C1 3
C2
q2*
a2C2 3
C1
CH C2 q2*(CH)q2*
CL C2 q2*(CL)q2*
ቤተ መጻሕፍቲ ባይዱ
7
27.04.2020
6.1.2 静态贝叶斯博弈的一般表示
厂商1只知道有两种可能性,一种是C2= C2(q2) = CH q2概率为θ另一种是C2= C2(q2)= C Lq2, 概率为1-θ,而CH>CL,也即边际成本有高、低两 种可能。
3
27.04.2020
6.1.1 不完全信息的古诺模型
厂商2在边际成本是较高的CH时会选择较低的产 量,而在边际成本为较低的CL时会选择较高的产 量。

博弈论第六章不完全信息静态博弈题库

博弈论第六章不完全信息静态博弈题库

博弈论第六章不完全信息静态博弈题库【原创版】目录一、引言二、不完全信息静态博弈的概述1.不完全信息的定义2.静态博弈的定义三、不完全信息静态博弈的解题方法1.严格优势策略2.纳什讨价还价解3.轴向讨价还价解四、应用案例分析五、总结正文一、引言在博弈论中,不完全信息静态博弈是一个重要的研究领域。

由于参与者在博弈过程中所拥有的信息不完全,这使得博弈过程变得更加复杂和有趣。

本文将介绍不完全信息静态博弈的概述,以及探讨如何解决这类问题。

二、不完全信息静态博弈的概述1.不完全信息的定义不完全信息指的是参与者在博弈过程中,无法完全了解其他参与者的策略或支付函数。

这种情况下,参与者需要根据自己所掌握的信息,来猜测其他参与者可能采取的策略。

2.静态博弈的定义静态博弈是指参与者在一定时间内,一次性地选择策略并完成博弈的过程。

静态博弈中,参与者不需要考虑时间顺序,只需关注当前状态下的最优策略。

三、不完全信息静态博弈的解题方法1.严格优势策略在完全信息静态博弈中,如果一个策略对某个参与者来说是严格优势的,那么他会选择这个策略。

在不完全信息静态博弈中,同样可以利用严格优势策略来求解。

即通过分析其他参与者可能采取的策略,找到一个对某个参与者来说严格优势的策略。

2.纳什讨价还价解纳什讨价还价解是解决不完全信息静态博弈问题的一种方法。

通过设计一种讨价还价机制,使得参与者可以在不完全信息的情况下,达成一种合作解。

纳什讨价还价解的关键是让参与者在博弈过程中,有动力去揭示自己的真实支付函数。

3.轴向讨价还价解轴向讨价还价解是另一种解决不完全信息静态博弈问题的方法。

它通过让参与者在博弈过程中,根据其他参与者的策略选择,来调整自己的策略,从而实现一种合作解。

轴向讨价还价解的优势在于,它可以在不完全信息的情况下,使得参与者的收益达到最大。

四、应用案例分析以寡头垄断市场为例,市场中有两个寡头企业,它们需要决定是否进行价格战。

在这个过程中,每个企业都需要考虑对方的策略选择。

第6章 博弈论

第6章  博弈论

3、相同市场份额厂商的价格战 、
厂商B 厂商 降价 厂商A 厂商A 降价 不降价 30,30 , 20,70 , 不降价 70,20 , 50,50 ,
上策:无论对方如何选择都使自己利益极大化的策略。 上策:无论对方如何选择都使自己利益极大化的策略。 上策均衡:是博弈均衡的一种特殊状态。 上策均衡:是博弈均衡的一种特殊状态。

A和B都不会选择劣策略“不招”, 和 都不会选择劣策略 不招” 都不会选择劣策略“ 称为“剔除劣策略的占优策略均衡” 称为“剔除劣策略的占优策略均衡”。 其中“ 是占优于(优于 不招” 优于)“不招 其中“招”是占优于 优于 不招”的占 优策略。 优策略。 • 我们可以利用这个道理来分析日常 生活中的许多不合作现象。 生活中的许多不合作现象。
例子3: 苏格兰的草地为什么消失了? 例子 : 苏格兰的草地为什么消失了 ? 公 共资源经常被过度利用的原因。 共资源经常被过度利用的原因。
在 18世纪以前, 英国苏格兰地区有大量的 世纪以前, 世纪以前 草地, 其产权没有界定, 属公共资源, 大家 草地 , 其产权没有界定 , 属公共资源 , 都可以自由地在那里放牧。 如果限制放牧的 都可以自由地在那里放牧 。 数量, 没有被牛羊吃掉的剩余草皮还会重新 数量 , 长出大面积草场, 但如果不限制放牧规模, 长出大面积草场 , 但如果不限制放牧规模 , 过多的牛羊将草吃得一光二净, 则今后不会 过多的牛羊将草吃得一光二净 , 再有新草生长出来,草场就会消失。 再有新草生长出来,草场就会消失。
• 例子 : 为什么政府要负责修建公共设施,因为私 例子2 为什么政府要负责修建公共设施, 人没有积极性出资修建公共设施
设想有两户相居为邻的农家, 设想有两户相居为邻的农家 , 十分需要有一条好路从 居住地通往公路。修一条路的成本为4, 居住地通往公路。修一条路的成本为 ,每个农家从修好的 好路上获得的好处为3。如果两户居民共同出资联合修路, 好路上获得的好处为 。如果两户居民共同出资联合修路, 并平均分摊修路成本,则每户居民获得净的好处(支付) 并平均分摊修路成本 , 则每户居民获得净的好处 ( 支付) 为 3-(4/2)=1;当只有一户人家单独出资修路时, 修路的 ( ) ; 当只有一户人家单独出资修路时, 居民获得的支付为3-4=-1(亏损), “搭便车”不出资但 (亏损) 搭便车” 居民获得的支付为 仍然可以使用修好的路的另一户人家获得支付3-0=3,见表 , 仍然可以使用修好的路的另一户人家获得支付 2。 。

博弈论(第六章)

博弈论(第六章)
1
好 1
卖 2 买 不买 买 不买 不卖 卖
差 1
不卖
(a)
谢富纪 2009年4月 6
1. 不完美信息动态博弈


不买
1
不卖

1

2
差 卖
1
不卖
不买
(b ) 二手车交易扩展形
谢富纪 2009年4月 7
1. 不完美信息动态博弈
好 1 卖 2 买 不买 买 1 差 不卖 (0,0)
1 不卖 卖
(0,0) 不买
谢富纪
2009年4月
15
2. 完美贝叶斯均衡
所以,子博弈完美纳什均衡是完美贝叶斯均衡在完 全且完美信息动态博弈中的特例。 要求1实际上是解决完全但不完美信息动态博弈的 基本前提,要有一个判断,否则决策就会失去依据。 要求2序列理性相当于子博弈完美纳什均衡中的子 博弈完美性。而在多节点信息集开始的不构成子博 弈的部分中,序列理性通过要求各方遵循最大利益 原则而排除博弈方策略中不可信的威胁或承诺。 序列理性要求对保证完美贝叶斯均衡的真正稳定性 是很重要的。
选R),对博弈方1选L还是选M的可能性大小毫无
判断,则他将不知道选U和选D哪个更合理,也就 是说,对两条路径的判断是决策的必要基础,从而 也使均衡策略的基础。
谢富纪
2009年4月
18
2. 完美贝叶斯均衡
条件2的必要性: 如果不要求序列理性,则博弈方2有一个可为自己争取 到的收益3,即博弈方2威胁在轮到自己选择时唯一地 选D,这样策略组合: 博弈方1:第一阶段选R; 博弈方2:如果轮到自己选择,唯一选D。 是一个纳什均衡,也是一个子博弈完美纳什均衡(因为 该博弈没有子博弈)。 但博弈方2的上述策略在博弈方1不选R时选L的概率较 大时,明显包含一个不可信的威胁。因此要求2对于 保证不完美信息动态博弈的均衡策略中没有不可信的 威胁或者承诺具有关键作用。

第六章博弈论

第六章博弈论

一般认为,1944年美国数学家冯•诺依曼(John Von Neumann)和经济学家奥斯卡•摩根斯坦 (Oskar Morgenstern)合著的《博弈论与经济 行为》(The Game Theory and Economic Behavior) 一书的出版,标志着系统的博弈理 论的形成。
❖该书详尽地讨论了二人零和博弈, 并对合作博弈作了深入探讨,开辟 了一些新的研究领域。更重要的是 将博弈论加以空前广泛的应用,尤 其是在经济学上,由于博弈论数学 上的严整性与经济学应用上的广泛 性,一些经济学家将该巨著的出版 视为数理经济学确立的里程碑。
“保证最低价格”策略
❖ “保证最低价格”条款。
❖ 该条款一般规定:“顾客在本 商店购买这种商品一段时间内,如 果发现其他任何商店以更低的价格 出售同样的商品,本店将退还差价, 并补偿差额的10%。”
❖ 一、单项选择题:
❖ 分析下列的报酬矩阵,回答问题:
John的 开业长时间 咖啡 馆 开业短时间
✓ 第一,不能让对方事先知道自己可 能采取的策略。
✓ 第二,必须采取随机选择的原则。 ✓ 第三,选择策略的概率一定要使对
方无机可乘。
动态博弈
➢重复博弈 ➢序列博弈
重复博弈
❖ 对重复博奕的研究结果证明有一种 最好的策略:只需将一个原则贯穿始终, 即“以牙还牙”(Tit-for-tat)。
❖ 以牙还牙策略的获胜有一个十分重 要的条件,即博弈是无限次重复的。
❖王则柯 :《新编博弈论平话》 中信出版社 ❖ 王则柯主编:《21世纪经济学教材:博弈论
教程》中国人民大学出版社
❖ 《美丽心灵》(A Beautiful Mind )是一部关于一个 真实天才的极富人性的剧情片。故事的原型是数学家 小约翰-福布斯-纳什(Jr.John Forbes Nash)。英俊而又 十分古怪的纳什早年就作出了惊人的数学发现,开始 享有国际声誉。但纳什出众的直觉受到了精神分裂症 的困扰,使他向学术上最高层次进军的辉煌历程发生 了巨大改变。面对这个曾经击毁了许多人的挑战,纳 什在深爱着的妻子艾丽西亚(Alicia)的相助下,毫不畏 惧,顽强抗争。经过了几十年的艰难努力,他终于战 胜了这个不幸,并于1994年获得诺贝尔奖。这是一个 真人真事的传奇故事,今天纳什继续在他的领域中耕 耘着。

博弈论第六章

博弈论第六章
博弈的n个参与人的支付的总和是一个常数。常数的 1/n称为常和博弈支付的偏零因子。
• 对于每个n人常和博弈G,可以从每个参与人的支付
中减去博弈的偏零因子,将G转换为零和博弈G/,把 G/叫做常和博弈G的归零博弈。
常和博弈: 常和博弈:掷硬币 常和为偏零因子常和为-1:偏零因子-1/2
支付 1 正面 反面
益一致的博弈,对于参与人而言,合作总 比不合作要好。
协调博弈举例: 协调博弈举例:胖子进门
支付 张三 先走 后走
李四
先走
后走
-1,-1 , 1,2 ,
2,1 , -1,-1 ,
协调博弈举例: 协调博弈举例:交通规则博弈
支付 张三 靠右 靠左
李四
靠右
靠左
1,1 , -1,-1 ,
-1,-1 , 1,1 ,
支付 可口可乐 低价 高价
百事 可乐
低价 3, 3 1, 6
高价 6, 1 5, 5
个体利益与集体利益一致的性别战博弈
支付 妻子 时装 足球
丈夫
时装
足球
2,1 , 0,0 ,
0,0 , 1,2 ,
协调博弈 • 广义的协调博弈:包括所有能够协调出双
赢对局的博弈,如囚徒困境;
• 狭义的协调博弈:仅指个体利益与集体利
体参与人之得益总和不总是保持为零,这 个博弈就叫非零和博弈。
• 零和博ห้องสมุดไป่ตู้是利益对抗程度最高的博弈。
零和博弈: 零和博弈:掷硬币
支付 1 正面 反面 -1,1 , 1,-1 , 1,-1 , -1,1 , 2 正面 反面
常和博弈与非常和博弈 (constant-sum game and variable-sum game)
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 如果一个博弈在所有各种对局下全体参与人之得
益总和总是保持为一个常数,这个博弈就叫常和 博弈;
• 相反,如果一个博弈在所有各种对局下全体参与
人之得益总和不总是保持为一个常数,这个博弈 就叫非常和博弈。
• 常和博弈也是利益对抗程度最高的博弈。
常和博弈与归零博弈
• 设G是一个n人常和博弈,那么在G的每种战略组
5,-5 , 6,-6 , 1,-1 ,
3,-3 , 4,-4 , 6,-6 ,
2,-2 , 3,-3 , 0,0 ,
D

最小最大方法与相对优势策略划线法 一样, 一样,都是寻找同时行动博弈的纯策略 纳什均衡的一种方法。 纳什均衡的一种方法。 • 但是,最小最大方法的适用范围窄, 但是,最小最大方法的适用范围窄, 只适用于零和博弈。 只适用于零和博弈。
时装 支付 妻子 时装 2,1 , 0,0 , 丈夫
足球
0,0 , 1,2 ,
足球
协调博弈 • 广义的协调博弈:包括所有能够协调出双
赢对局的博弈,如囚徒困境;
• 狭义的协调博弈:仅指个体利益与集体利
益一致的博弈,对于参与人而言,合作总 比不合作要好。
协调博弈举例: 协调博弈举例:胖子进门
先走 支付 张三 先走 -1,-1 , 1,2 , 李四

问题: 问题:如果一个零和博弈中不存在纯策 略纳什均衡,怎么办? 略纳什均衡,怎么办?
零和博弈
2 支付 1 正面 -1,1 , 1,-1 , 1,-1 , -1,1 ,
正面
反面
反面
行局中人的支付
2
支付 1 正面 反面
正面 -1 1
max=1
反面 1 -1
max=1 min= -1 min= -1

如果行局中人的“最小”中的“最大” 如果行局中人的“最小”中的“最大” 和列局中人的“最大”中的“最小” 和列局中人的“最大”中的“最小”的值 出现在支付矩阵的同一个位置,则该结果 出现在支付矩阵的同一个位置, 就构成博弈的纳什均衡。 就构成博弈的纳什均衡。

这种在零和博弈中寻找纯策略纳什均衡 的方法,称为最大最小-最小最大法, 的方法,称为最大最小-最小最大法,简称 最小最大法。 最小最大法。
第三节
直线交叉法:扩展的最小最大方法 直线交叉法:
• 最小最大方法:
适用于零和博弈的纯策略纳什均衡
• 扩展的最小最大方法
(直线交叉方法): 适用于零和博弈的混合策略纳什均衡
• 在非零和博弈中,可能存在共同利益。
无纯策略纳什均衡的零和博弈
支付 1 正 反
2
正 -1 1
max=1 max=1
反 1 -1
对抗性排序
•对抗性排序
根据收益的相关性进行
你死我活” “你死我活”的掷硬币游戏
2 支付 1 正面 -1,1 , 1,-1 , 1,-1 , -1,1 ,
正面
反面
反面
出现“双赢” 出现“双赢”可能的价格大战囚徒困 境
百事 可乐 低价 可口可乐 高价
支付
低价
3, 3
6, 1
高价
1, 6
5, 5
个体利益与集体利益一致的性别战博弈
• 我们用红线表示出来,以强调在1所能选择的
每一个p-混合策略下,2能够做到的时1得到的 最低支付。这个呈倒V型的图像给出了在1所能 选择的所有混合策略与他能得到的最小支付之 间的关系。整个倒V型图像就是位于p-混合行 的最右端所应填上的最小值,它不再是一个数, 而是一个函数。
2的选择
支付 2 1 正 反 正 (q) -1 1
最小最大方法的应用
支付 甲 上 下



-3 10 max=10
4 6 max=6
min=-3 min=6
最小最大方法: 最小最大方法:1
2 支付 1 上 1 2 4 3



最小最大方法: 最小最大方法:1
2 支付 1 上 1,-1 , 2,-2 , 4,-4 , 3,-3 ,



最小最大方法: 最小最大方法:2
支付 乙 甲 猎鹿 猎兔 猎鹿 4,4 , 2,0 , 猎兔 0,2 , 3,3 ,
纯策略猎鹿是支付占优纳什均衡、 纯策略猎鹿是支付占优纳什均衡、纯策略猎兔是 风险占优纳什均衡。 风险占优纳什均衡。 猎兔策略是一个保险策略, 猎兔策略是一个保险策略,而猎鹿则是一个帕累 托效率策略但由于策略的不确定性而使它具有较大的 风险。 风险。 因此,均衡选择取决于参与人对风险的态度。 因此,均衡选择取决于参与人对风险的态度。
支付 甲 上 下



-3,3 , 10,-10 ,
4,-4 , 6,-6 ,



甲 上 -3 4

10
6
第二节
最小最大方法
最小最大方法
• 由冯·诺依曼提出 • 基本思想: 基本思想:
作为局中人,对手将采取对他自己最有利 的策略;相应的,对手会选择使你获得尽 可能差的支付的策略。 由于零和博弈的特点和性质, 由于零和博弈的特点和性质,以上思想即 任何使对手得到最好结果的策略, 为:任何使对手得到最好结果的策略,都 会使你获得最差的结果。 会使你获得最差的结果。双方都具有这样 的理性! 的理性!

假定现在给出的是行局中人的支付矩阵, 假定现在给出的是行局中人的支付矩阵,站在 行局中人的角度看, 行局中人的角度看,他当然希望博弈的结果是支 付尽可能大的那个矩阵位置, 付尽可能大的那个矩阵位置,而列局中人则希望 博弈的结果是支付尽可能小的那个位置。 博弈的结果是支付尽可能小的那个位置。 • 行局中人会认为,对他所能选择的每个行策略, 行局中人会认为,对他所能选择的每个行策略, 列局中人都将选择该行中数字最小的那一列。 列局中人都将选择该行中数字最小的那一列。因 此,行局中人应该选择在列局中人所选择的这些 每行的最小的数字中最大的数字所对应的那一行。 每行的最小的数字中最大的数字所对应的那一行。 就是选择“最小”中的“最大” 就是选择“最小”中的“最大”。
2 支付 1 上 1 4 2 3



最小最大方法: 最小最大方法:2
2 支付 1 上 下 1,-1 , 4,-4 , 2,-2 , 3,-3 , 左 右
最小最大方法: 最小最大方法:3
参与人2 参与人 L M R
U
5 6 1
3 2 0
1 1 0
参与人1 M
D
最小最大方法: 最小最大方法:3
参与人2 参与人 L U M R
体参与人之得益总和不总是保持为零,这 个博弈就叫非零和博弈。
• 零和博弈是利益对抗程度最高的博弈。
零和博弈: 零和博弈:掷硬币
2 支付 1 正面 反面 -1,1 , 1,-1 , 1,-博弈 (constant-sum game and variable-sum game)
坦白
0,-9
-6,-6
• 在研究二人零和博弈的时候,只要分析 在研究二人零和博弈的时候,
其中一个人的支付矩阵就够了。所以, 其中一个人的支付矩阵就够了。所以, 通常只使用一个局中人的支付单矩阵。 通常只使用一个局中人的支付单矩阵。
行局中人的支付
2
支付 1 正面 反面
正面 -1 1
反面 1 -1
零和博弈的求解方法
max=1
反 (1-q) 1 -1
max=1
q-混合 混合
-q+(1-q)
q-(1-q)
max=?
参与人2的q-混合策略图解 参与人2
2的支付 的支付
1
1反
1/2
1正
1
0
的 混合策略 1 2的q混合策略
-1
-1
• 找出1和2的最优策略选择后,把这两个策略选
择放在一起,并证明它们构成这个博弈的纳什 均衡。 • 给定1选择P-混合策略,此时2无论是选择正面 还是反面,他所得到的期望支付都是0,这与 他采取q-混合策略时所得到的支付是相同的, 因此,2没有激励偏离给定的q-混合策略的选 择。事实上,这也是说q=0.5构成2的最优选择 的整个逻辑基础。
对称博弈
对称博弈是指在无角色区分的参与者之间进行的协调博弈, 对称博弈 它表现在支付函数的对称上,二者的策略集是一样的。 抑或:通俗说就是代表参与者身份的下标,在分析中可以省 略掉而没有关系。 对称博弈分成三类: 支付占优与风险占优不一致; 支付占优与风险占优一致; 无占优性可比的协调博弈。
支付占优与风险占优不一致
5,-5 , 6,-6 , 1,-1 ,
3,-3 , 2,-2 , 0,0 ,
1,-1 , 1,-1 , 0,0 ,
参与人 1
M
D
最小最大方法: 最小最大方法:4
参与人2 参与人 L U M R
5 6 1
3 4 6
2 3 0
参与人 1
M
D
最小最大方法: 最小最大方法:4
参与人2 参与人 L U 参与人 1 M M R
1会预期2总是选择对2自己最有利的行动。因 此,对于任何一个具体的p值,1总是预期2会 选择与图中两条直线中处于较低位置的直线所 对应的行动。 • 当1选择正面的概率小于50%时,1预期2会选择 反面;而当1选择正面的概率大于50%时,1预 期2会选择正面。如果1选择正面和反面的概率 各占50%时,则2选择正面反面所得到的支付是 相同的。
合下,博弈的n个参与人的支付的总和是一个常 偏零因子。 数。常数的1/n称为常和博弈支付的偏零因子 偏零因子
• 对于每个n人常和博弈G,可以从每个参与人的
支付中减去博弈的偏零因子,将G转换为零和博 弈G’,把G’叫做常和博弈G的归零博弈 归零博弈。 归零博弈
相关文档
最新文档