博弈论第二章
博弈论(第二章)讲义

纳什均衡的练习(1)
例1:囚徒困境
囚徒B
坦白
不坦白
坦白 囚徒A
不坦白
-5, -5 -8, 0
0, -8 -1, -1
纳什均衡的练习(2)
例2:智猪博弈
大猪
踩
不踩
小猪
踩 不踩
1.5, 3.5 5, 0.5
- 0.5, 6 0, 0
纳什均衡的练习(3)
例2:猜硬币的博弈
猜硬币者
正
反
正 盖硬币者
反
-1, 1 1, -1
博弈方2
U
L
R
U 博弈方1
D
1, 0 0, 3
1, 2 0, 1
0, 1 2, 0
三、划线法
其中心思想是根据博弈方策略之间的相对优劣关系,导 出博弈分析的“划线法”。
例:下图中的得益矩阵表示两博弈方的一个静态博弈,
试使用划线法进行分析。 博弈方2
左
中
右
上 博弈方1
下
1, 0 0, 4
1, 3 0, 2
二、严格下策反复消去法
(1)如果在一个博弈中,不管其它博弈方的策略如何变 化,一个博弈方的某种策略给他带来的得益,总是 比另一种策略给他带来的得益要小,那么称前一种 策略为相对于后一种策略的一个“严格下策” 。
(2)经“反复消去”博弈方的严格下策以后,每个博弈 方
可选策略都缩小为一个策略。因此,每个博弈方都 选择各自剩下的一个策略所组成的策略组合,是这 个博弈的均衡解 。
0, 1 2, 0
划线法的练习(1) 例2:囚徒困境
坦白 囚徒A
不坦白
囚徒B
坦白
不坦白
-5, -5 -8, 0
第二章博弈论

【例】找出下列博弈的重复剔除占优战略均衡。
B
L
M
P
u
4,3 5,1 6,2
A
d
2,1 8,4 3,6
e
3,0 9,6 5,8
u
A
d
e
B L 4,3 2,1 3,0
P 6,2 3,6 5,8
A
u
B L 4,3
P 6,2
A
u
B L 4,3
注意:重复剔除的占优战略不仅要求每个参 与人是理性的,而且要求“理性”是参与人 的共同知识。
◦ 雇主认为受教育水平高的人是高能力的, 所以支付高工资。
什么是理性?
——博弈论中,有一个基本的假定就是,所 有的博弈参与者都是理性的。通俗地讲就是 大家都是明白人,谁也不比谁更傻,你想到 的别人也想到了,而别人想到的你也能想得 到。
纳什均衡
性别战博弈——不存在重复剔除的占优战略均衡
女方
看足球
听音乐会
看足球 男方
听音乐会
3,1 0,0
0,0 1,3
◦ 也称贝叶斯博弈。在完全信息博弈中,参 与人的收益函数是共同知识,而在不完全 信息博弈中,至少有一个参与人不能确定 其他参与者的收益函数。
不完全信息动态博弈的例子
【例】:张三和李四过几天就要进行搏斗,张三很 想知道李四是不是强者?
最初,张三判断李四是强者的概率为0.8,是 弱者的概率是0.2,所以,张三不敢轻敌。后来, 张三观察到李四不喜欢吃辣椒,由此推断李四不是 强者。
一个博弈可能会有多个纳什均衡,究竟哪一个会出 现,需要知道博弈进行的具体过程。
【例】 A
B
L
M
P
u
0,3 3,0 5,2
博弈论-第二章

定 义 在有n个参与人的博弈 G={S1,S2…Sn;u1,u2,…un)中,策略组合 s*=(s1 *,s2 *,…sn *)是一个Nash均衡,如果对于 每一个isi*是给定其他参与人的选择: S-i*=(s1*,…si-1*,si+1*,…sn*)的情况下,第i个人的 最优策略,即 ui(si*,s-i*)≥ui(si,s-i*) ,对所有的i∈Γ 或者用另一种表示方式,si*是下述最大化问题的 解: si*∈arg ui(s1*,…si-1*,si,si+1*,…sn*),i=1,2,…n S *∈Si ∈ 因此,当且仅当没有一个参与人能从单方面背离 某个策略组合的预见中增加自己的得益时,这 个策略组合就是Nash均衡。
U
参与人1(A) 参与人
p
q
4,3 2,1 3,0
5,1 8,4 9,6
6,2 3,6 2,8
M D
(双矩阵博弈)
下面重新定义Nash均衡 定义 在博弈G={S1,S2,…,Sn;u1,u2,…,un}中,混合 策略组合σ*=(σ1*,…σi*,…σn*)是一个 Nash均衡,如果对任一i,有: ui(σi*,σ-i*)≥ui(σi,σ-i*),对任-σi∈Σi 这个定义也可以写为: 定义 对在博弈G={S1,…,Sn;u1,…,un}中的混合 策略组合σ*=(σ1*,…σi*,…σn*),如果对所有的 参与人i,有 ui(σi*,σ-i*)≥ui(sik,σ-i*),对每一sik∈Si 成立,则称σ*为博弈G的Nash均衡。
这里的“同时”是一个信息概念,而不是一 个时间概念。可以设想,参与人是处于不同的 房间里,要求在彼此没有联络的情况下,选择 一个按纽。 通常还假设,所有的参与人都知道博弈的 结构,知道他们的对手知道这一结构,知道他 们的对手了解他们知道···如此直至无穷,也即 ··· 博弈的结构是共同知识。 更准确地,策略式表述给出: ⑴博弈的参与人集合: I∈Γ,Γ={1,2,…n} ⑵每个参与人的策略空间 Si,i=1,2,…n ⑶每个参与人的支付函数 ui=(s1,…si,…sn),i=1,2,…n
大学课程《博弈论及其应用》PPT课件:第二章(1234节)

博弈方2
左
中
右
上 博弈方1
下
1,0 0,4
1,3 0,2
0,1 2,0
图 2-7 划线法
博弈的相对优势策略位置在图2-7标出,策略组合{上,中}格 子中的两个数字下面都划了短线,这个格子对应的策略组合 就是由划线法得到的纳什均衡。
第四节 箭头方法
还有一种寻找纳什均衡的方法,和划线法的分析理念的出发 点不同,这种方法的思路是对博弈中的每个策略组合进行分 析,判断各博弈方是否能够通过单独改变自己的策略而改善 自己的得益,如果可以,则从所考察的策略组合的得益引一 个箭头到改变策略后的策略组合对应的得益。这样对每个可 能的策略组合都分析考察过以后,根据箭头反映的情况来判 断博弈的结果。
博弈方2
Hale Waihona Puke 左中上 博弈方1
下
1,0 0,4
1,3 0,2
右
0,1 2,0
图 2-8 箭头法
观察图2-8,在策略组合{上,中}中只有指向的箭头,没有指 出的格子所代表的就是纳什均衡。
略“上”改变的倾向,用一个竖着的箭头表示这个倾向;横 着比较后面的得益,4比2大,4比0大,博弈方2没有改变的 动力。在策略组合{上,左}中,横着比较后面,分析博弈方2 的得益,3比0大,1比0大,所以博弈方2有从策略“左”向
策略“中”和策略“右”改变的倾向,用两个横向的箭头表 示这两个改变的倾向。
在策略组合{上,中}中,竖着比较前面的得益,还是横着比较后 面的得益,博弈方1和博弈方2都没有改变的倾向。在策略组合 {上,右}中,竖着比较前面,2比0大,博弈方1有从策略“上”
向策略“下”改变的倾向,用一个竖向的箭头表示这个倾向; 横着比较后面,3比1大,博弈方2有从策略“右”向策略“中” 改变的倾向,用一个横向的箭头表示这个倾向。
经济博弈论第二章a 博弈论课件

* 在本博弈中, ( q 1* , q 2 ) 的纳什均衡的充分必要条件是 q 大值问题: * 2
* 1
和q
q2 (0,6)
R1(q2)
(2,2) 6 R2(q1)
(0,3)
0
(3,0)
(6,0)q1
从左图可以看出,当一方的 选择为0时,另一方的最佳反应 为3,这正是我们前面所说过的 实现总体最大利益的产量,因为 一家产量为零,意味着另一家垄 断市场。当一方的产量达到6时, 另一方则被迫选择0,因为实际 上坚持生产已无利可图。
2.3.2 应用
混合策略的方法不仅可以解决不存在纯策略纳什均衡的博弈问题,同样 可应用于存在多个纯策略纳什均衡的博弈问题。 丈 夫 例 夫妻之争 时装 足球 该博弈与上一个博弈的不同之处在 0, 0 于每一方所希望对方知道自己的策略选 妻 时装 2,1 择以达到有利于自己的结果。现实中, 1, 3 子 足球 0,0 这类问题多通过协商解决以免两败俱伤。 在此我们假设夫妻双方不可协商,互不通消息。 令pw(时), pw(足)分别表示妻子选择时装表演和足球的概率; ph(时), ph(足)为丈夫选择时装表演和足球的概率。 同样的分析方法可得pw(时)=0.75, pw(足)=0.25; ph(时)=1/3, ph(足)=2/3.双方的期望得益分别为uwe=0.67, uhe=0.75。
d 2 b * 1 2 P ( a bc ) ( a b c ) 1 2 22 1 1 1 4 b b dd 4 b b dd 1 2 1 2 1 2 1 2 d 2 b * 2 1 P ( a b c ) ( a bc ) 2 1 11 2 22 4 b b dd 4 b b dd 12 1 2 12 1 2
博弈论-第二章

由此,可以看出严格优策略和严格劣策略的 差异。严格优策略是全局性的,而严格劣策 略只是相对于另一个策略而言。
因而严格劣策略的要求要比严格优策略要松, 运用重复剔出严格劣策略(如果存在的话) 通常都能够确定博弈的均衡。
但是,对于更一般的博弈,利用可理性化 导致的结果可能是所有博弈组合都无法剔除, 从而导致所有组合都可能是均衡这样的状态。
严格优策略通俗地说就是在任何情况下,该 策略带给参与者的收益都要严格大于其它任 意策略。
理解严格优策略的关键在于两个任意:给定 对手任意的策略和自己任意的策略。
如果严格优策略存在,那么它必然是唯一的。 这体现在命题2.1中。
我们现在就举例说明。
[例] 双边背离与纳什均衡
1.
2
2. 左 右 右
上 1,1,2 _ ,0, _ 1
下 0, _, _ 2, 2,1
2 左
_, _, 1 ……. …… …….
ห้องสมุดไป่ตู้
3
高
低
为了加深理解,我们来看一些经典例子。
见书43页—50页。
通过这些例子,要求:1、掌握如果概括 博弈的方法——基本式,2、如何找纳什 均衡。
混合策略通俗地说就是随机选择纯策略。在 混合策略条件下,偏好实质上变成了v-N-M偏 好,除了满足非对称性和负传递性外,还需 满足替代公理和阿基米德公理。
伯努利收益函数满足线性变换。
我们知道,一个严格劣策略肯定是一个从来 都不会选择的策略,在混合策略下,从来都 不选择的策略同样是严格劣策略。但限制在 纯策略下,这个逆命题却不成立。
博弈论(第二章)

假设这些农户在夏天才到公共草地放羊,而每年 的春天就要决定养羊的数量。
(2)严格下策反复消去法也不能解决所有的博弈分析 问题 。
严格下策反复消去法的思考问题:
(1)“严格下策”和“上策”之间有没有对应关系, 什么
情况下有对应关系? (2)使用严格下策反复消去法所得到的均衡结果,是
否与消去的严格下策的次序有关。
严格下策反复消去法的练习
例2:下图中的得益矩阵表示两博弈方的一个静态博 弈,试使用严格下策反复消去法进行分析。
纳什均衡的练习(1)
例1:囚徒困境
囚徒B
坦白
不坦白
坦白 囚徒A
不坦白
-5, -5 -8, 0
0, -8 -1, -1
纳什均衡的练习(2)
例2:智猪博弈
大猪
踩
不踩
小猪
踩 不踩
1.5, 3.5 5, 0.5
- 0.5, 6 0, 0
纳什均衡的练习(3)
例2:猜硬币的博弈
猜硬币者
正
反
正 盖硬币者
反
-1, 1 1, -1
博弈方2
U
L
R
U 博弈方1
D
1, 0 0, 3
1, 2 0, 1
0, 1 2, 0
三、划线法
其中心思想是根据博弈方策略之间的相对优劣关系,导 出博弈分析的“划线法”。
例:下图中的得益矩阵表示两博弈方的一个静态博弈,
第二讲纳什均衡

习题:齐威王田忌赛马矩阵
上中下 上中下
田忌
上下中 中上下 中下上 下中上 下上中
+3,-3 +1,-1 +1,-1 -1,+1 +1,-1
+1,-1 +3,-3 -1,+1 +1,-1 +1,-1
+1,-1 +1,-1 +3,-3 +1,-1 -1,+1
+1,-1 +1,-1 +1,-1 +3,-3 +1,-1
在第二行1 下划线
2015年12月6日
博弈论第二章 第二讲纳什均衡
20
第三节 纳什均衡
三、寻找纳什均衡的方法 (二)相对优势策略划线法 3.设定甲靠左行(第一行) 乙: 1>-1 乙相对优势策略:靠左行
在第一列 1下划线
2015年12月6日
博弈论第二章 第二讲纳什均衡
21
第三节 纳什均衡
四、古诺模型 max i 2.企业i的目标: π1=?,π2=? 3.企业利润最大化的一阶、二阶条件
1 0 q1 2 0 q2
2015年12月6日
2 1 2 0 2 q1 2 2 2 0 2 q 2
博弈论第二章 第二讲纳什均衡
35
第三节 纳什均衡
27
第三节
纳什均衡
要点:(1)箭 头指向的支付 大;(2)只有 一方单独改变 策略
三、寻找纳什均衡的方法 (三)箭头指向法 2.分析:(适度放牧,过度放牧) (1)给定乙不变,甲改变:0→10 (箭头向上) (2)给定甲不变,乙也不变
2015年12月6日
博弈论第二章 第二讲纳什均衡
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 完全信息的动态博弈2.1完全和完美信息的动态博弈动态博弈(dynamic game):参与人在不同的时间选择行动。
完美信息(perfect information): 在博弈的每次行动的参与人完全知道博弈的历史。
2.1.A 理论: 逆向归纳法简单的完全和完美信息博弈:1. 参与人 1 选择行动a 12. 参与人 2 观察a 1,然后选择a 23. 收益是 u 1(a 1, a 2)和u 2(a 1, a 2)求解博弈: 逆向归纳法 (backward induction)1. 求解第二个阶段,对于a 1,求a 222max A a ∈u 2(a 1,a 2)其解: a 2= R 2(a 1) ---- 反应函数2. 求解第一个阶段11m a x A a ∈ u 1(a 1,R 2(a 1))其解: a *1逆向归纳解(outcome): (a *1, R 2(a *1) )注意:在动态博弈中,行动与战略是不同的概念;逆向归纳解与纳什均衡是不同的概念。
关于逆向归纳法的理性假定例11L R220 L'R'111 L''R''3 00 2用逆向归纳法:第3步:参与人1 选择L'';第2步:参与人2 选择L';第1步:参与人1 选择L逆向归纳解: L(在第一个阶段结束)。
如果博弈在第一个阶段中不结束,可能原因是什么?2.1.B Stackelberg 模型二个企业,生产产量: q1, q2市场需求: P = a–Q, 其中Q = q1 + q2成本: C i (q i) = cq i, i = 1, 2.利润:πi (q1, q2) = Pq i–C i (q i) = (a– (q1 + q2))q i–cq i,博弈的顺序:(1) 企业1 选择q1≥ 0;(2) 企业2 观察q1然后选择q2≥ 0;(3) 收益: πi (q i , q j ) = q i [P (Q ) – c ]其中P (Q) = a – Q , Q = q 1 + q 2求逆向归纳解(1)阶段2,企业2在观察q 1后选择q 2满足02max ≥q q 2 (a – (q 1 + q 2) – c )解出q 2 = R 2 (q 1) =21cq a --(2)阶段1,企业 1知道R 2 (q 1),求q 101max ≥q q 1 (a – (q 1 + R 2 (q 1))– c )=01max ≥q q 1 21c q a --解出q 1* =2ca -, R 2(q 1*) =4ca -与 Cournot 模型比较q 1* = q 2* =3ca -结果:先进入市场者有更多的利润。
2.1.C 工会与企业的工资和就业一个企业和一个工会,关于工资w 和就业数量L 的决定。
工会收益: U (w , L );企业收益: π(w , L ) = R (L ) – wL ,R '(0) = ∞ ,R '(∞) = 0 博弈的顺序:(1) 工会选择工资w ;(2) 企业观察 w 且选择 L .wL工会的无差异曲线求逆向归纳解(1) 阶段2企业对w,选择L求max [R(L) –wL]一阶条件R'(L)–w = 0RR(L)L(w) L可以得到企业的反应函数:L(w)利用等利润曲线π = R(L) –wL分析:1. w = (R(L) –π)/L,等利润线的位置越低,利润越大;2. dw/dL = [R'(L) –w]/L,随L增加,等利润曲线先是正斜率,然后是负斜率。
3. 企业的选择在等利润线的顶点上。
w L (w)L(2) 阶段1工会知道L(w),求Max U(w, L)s. t. L = L(w)逆向归纳解(w*, L(w*))w L (w)L此结果是非最优的(inefficient)。
2.1.D 序贯谈判参与人1 和参与人2 谈判分配一元钱(s, 1 –s ).三期的谈判模型(1a) 参与人1 提议分配方案:(s1, 1 –s1 );(1b) 参与人2接受提议或拒绝提议。
如果参与人2拒绝,进入第2阶段;(2a) 参与人2提议 (s 2, 1 – s 2 )(2b) 参与人 1接受提议或拒绝提议。
如果参与人1拒绝,进入第3阶段;(3) 按外生方案分配,参与人 1 分得s ,参与人2分得1–s 。
贴现率: δ求逆向归纳解(1) 在阶段 2如果s 2 ≥ δs 参与人 1 将会接受s 2。
取s 2 = δs ,则1 – s 2 ≥ δ(1 – s )。
结果: 参与人 2 将会提议 s *2 = δs ,参与人 1 将会接受。
(2) 在阶段 1如果 1 – s 1 ≥ δ(1 – s *2) 即 s 1 ≤ 1 – δ(1 – s *2 ) ,参与人 2 将会接受 s 1当 s 1 = 1 – δ(1 – s *2 ), s 1 ≥ δs *2结果: 参与人 1 将会提出s *1 = 1 – δ(1 – s *2 ) = 1 – δ(1 –δs )参与人 2 将会接受 1 – s *1.逆向递归解为[1 – δ(1 –δs ), δs ]无限时间情形:不存在外生终止时间,无限重复阶段1与2。
假设结果是在第1期分配 (s 1*, 1 – s 1*)。
而在第1期和第2期未结束,在第3期分配 (s , 1 – s )。
第一期结果与第三期相同。
s = s *1 = 1 – δ(1 – s *2 ) = 1 – δ(1 –δs )结果s =δ+11, 1 – s = δδ+12.2 完全非完美信息二阶段博弈2.2.A 理论: 子博弈精炼完全非完美信息的二阶段博弈:(1) 参与人1 和2 同时选择a1和a2;(2) 参与人3 和4 观察(a1, a2), 然后同时选择a3 和a4;(3) 收益是u i(a1, a2, a3, a4), i =1, 2, 3, 4.逆向归纳法在第二阶段博弈, 参与人3 和4: (a*3(a1, a2), a*4(a1, a2)).在第一阶段,参与人1 和参与人2: (a*1, a*2).子博弈精炼解(sub-game perfect outcome)(a*1, a*2, a*3(a*1,a*2), a*4(a*1, a*2))2.2.B 银行挤提二个投资者在一个银行存款D.银行: 如果提前变现,得:2r如果到期,得:2R在期1投资者2提款不提提款r,r D,2r–D投资者1不提2r– D, D下阶段在日期2提款不提提款R,R2R–D,D不提D, 2R–D R, R求子博弈精炼解(1) 在期2, (取款,取款), 收益(R, R)(2) 将第2期收益代回,在期1,提款不提提款r,r D,2r– D不提2r–D, D R, R二个纯战略纳什均衡: (取款,取款),(不取,不取).两阶段博弈有二个子博弈精炼解:在日期1 两人都取款, (r, r);在日期1 两人都不取款, 但是在日期2 取款, (R, R)。
2.2.C 关税和国际市场竞争两个国家:1,2。
每国市场需求:P i(Q i) = a–Q i = a– (h i+ e j ),政府:制定关税t i企业:生产产品供给本国h i和出口e i生产成本C = c(h i+ e j)博弈的时间顺序政府选择关税企业观察税率,选择产量企业收益为利润πi (t i , t j , h i , e i , h j , e j ) =[a –(h i + e j )]h i +[a –( e i + h j )] e i – c (h i + e i )– t j e i 政府收益为本国总福利w i (t i , t j , h i , e i , h j , e j ) =21Q i 2 + π(t i , t j , h i , e i , h j , e j ) + t i e j求子博弈精炼解第2阶段,两个企业的纳什均衡在观察t i 与t j 后,国家i 的企业选择(h i , e i ),求max πi (t i , t j , h i , e i , h j , e j )有一阶条件d πi /dh i = a – 2h i –e j – c = 0d πi /de i = a – 2e i – h j – (c + t j ) = 0两个企业的反应函数h 1* =21(a – e 2* – c ) e 1* =21(a – h 2 * – c – t 2) h 2* =21(a – e 1* – c ) e 2* =21(a – h 1* – c – t 1) 可以解出h 1* =31(a – c + t 1 ) e 1* =31(a – c – 2t 2) h 2* =31(a – c + t 2 ) e 2* =21(a – c – 2t 1)第1阶段,两个政府的纳什均衡w i (t i , t j , h i , e i , h j , e j ) = 21Q i 2 + π(t i , t j , h i , e i , h j , e j ) + t i e j=21Q i 2 +[a – (h i + e j )]h i + [a –( e i + h j )] e i – c (h i + e i ) – t j e i + t i e j = 21[31(a – c + t i ) + 21(a – c – 2t i )]2 + [a – (31(a – c + t i ) + 31(a – c – 2t i ))]×31(a – c + t i ) + [a – (31(a – c – 2t j ) + 31(a – c + t j ))]×31(a – c – 2t j ) – c (31(a – c + t i ) +31(a – c – 2t j ))– t j 31(a – c – 2t j ) + t i 31(a – c – 2t i ) 一阶条件dw i /dt i = [31(a – c + t i ) + 21(a – c – 2t i )]( –32) + [a – (31(a – c + t i ) + 31(a – c – 2t i ))]31+31⨯31(a – c + t i ) – c 31+ 31(a – c – 2t i ) - 32t i = 0可解出t i =3c a - 从而h i =9)(4c a - , e i = 9c a -2.2.D 竞赛二个工人和他们的老板.阶段 1, 老板提出工人的工资,: w H , w L (即a 1) 产量高者得高工资,低者得低工资。