博弈论第二章

合集下载

博弈论(第二章)讲义

纳什均衡的练习（1）
例1：囚徒困境
囚徒B
坦白
不坦白
坦白囚徒A
不坦白
-5， -5 -8， 0
0， -8 -1， -1
纳什均衡的练习（2）
例2：智猪博弈
大猪
踩
不踩
小猪
踩不踩
1.5， 3.5 5， 0.5
- 0.5， 6 0， 0
纳什均衡的练习（3）
例2：猜硬币的博弈
猜硬币者
正
反
正盖硬币者
反
-1， 1 1， -1
博弈方2
U
L
R
U 博弈方1
D
1， 0 0， 3
1， 2 0， 1
0， 1 2， 0
三、划线法
其中心思想是根据博弈方策略之间的相对优劣关系，导出博弈分析的“划线法”。
例：下图中的得益矩阵表示两博弈方的一个静态博弈，
试使用划线法进行分析。博弈方2
左
中
右
上博弈方1
下
1， 0 0， 4
1， 3 0， 2
二、严格下策反复消去法
（1）如果在一个博弈中，不管其它博弈方的策略如何变化，一个博弈方的某种策略给他带来的得益，总是比另一种策略给他带来的得益要小，那么称前一种策略为相对于后一种策略的一个“严格下策” 。
（2）经“反复消去”博弈方的严格下策以后，每个博弈方
可选策略都缩小为一个策略。因此，每个博弈方都选择各自剩下的一个策略所组成的策略组合，是这个博弈的均衡解。
0， 1 2， 0
划线法的练习（1）例2：囚徒困境
坦白囚徒A
不坦白
囚徒B
坦白
不坦白
-5， -5 -8， 0

第二章博弈论

【例】找出下列博弈的重复剔除占优战略均衡。
B
L
M
P
u
4，3 5，1 6，2
A
d
2，1 8，4 3，6
e
3，0 9，6 5，8
u
A
d
e
B L 4，3 2，1 3，0
P 6，2 3，6 5，8
A
u
B L 4，3
P 6，2
A
u
B L 4，3
注意：重复剔除的占优战略不仅要求每个参与人是理性的，而且要求“理性”是参与人的共同知识。
◦ 雇主认为受教育水平高的人是高能力的，所以支付高工资。
什么是理性？
——博弈论中，有一个基本的假定就是，所有的博弈参与者都是理性的。通俗地讲就是大家都是明白人，谁也不比谁更傻，你想到的别人也想到了，而别人想到的你也能想得到。
纳什均衡
性别战博弈——不存在重复剔除的占优战略均衡
女方
看足球
听音乐会
看足球男方
听音乐会
3，1 0，0
0，0 1，3
◦ 也称贝叶斯博弈。在完全信息博弈中，参与人的收益函数是共同知识，而在不完全信息博弈中，至少有一个参与人不能确定其他参与者的收益函数。
不完全信息动态博弈的例子
【例】：张三和李四过几天就要进行搏斗，张三很想知道李四是不是强者？
最初，张三判断李四是强者的概率为0.8，是弱者的概率是0.2，所以，张三不敢轻敌。后来，张三观察到李四不喜欢吃辣椒，由此推断李四不是强者。
一个博弈可能会有多个纳什均衡，究竟哪一个会出现，需要知道博弈进行的具体过程。
【例】 A
B
L
M
P
u
0，3 3，0 5，2

博弈论-第二章

定义在有n个参与人的博弈 G={S1,S2…Sn;u1,u2,…un)中，策略组合 s*=(s1 *,s2 *,…sn *)是一个Nash均衡，如果对于每一个isi*是给定其他参与人的选择: S-i*=(s1*,…si-1*,si+1*,…sn*)的情况下,第i个人的最优策略,即 ui(si*,s-i*)≥ui(si,s-i*) ,对所有的i∈Γ 或者用另一种表示方式,si*是下述最大化问题的解: si*∈arg ui(s1*,…si-1*,si,si+1*,…sn*),i=1,2,…n S *∈Si ∈ 因此,当且仅当没有一个参与人能从单方面背离某个策略组合的预见中增加自己的得益时,这个策略组合就是Nash均衡。
U
参与人1(A) 参与人
p
q
4,3 2,1 3,0
5,1 8,4 9,6
6,2 3,6 2,8
M D
(双矩阵博弈)
下面重新定义Nash均衡定义在博弈G={S1,S2,…,Sn;u1,u2,…,un}中,混合策略组合σ*=(σ1*,…σi*,…σn*)是一个 Nash均衡,如果对任一i,有: ui(σi*,σ-i*)≥ui(σi,σ-i*),对任－σi∈Σi 这个定义也可以写为: 定义对在博弈G={S1,…,Sn;u1,…,un}中的混合策略组合σ*=(σ1*,…σi*,…σn*),如果对所有的参与人i,有 ui(σi*,σ-i*)≥ui(sik,σ-i*),对每一sik∈Si 成立,则称σ*为博弈G的Nash均衡。
这里的“同时”是一个信息概念，而不是一个时间概念。可以设想，参与人是处于不同的房间里，要求在彼此没有联络的情况下，选择一个按纽。通常还假设，所有的参与人都知道博弈的结构，知道他们的对手知道这一结构，知道他们的对手了解他们知道···如此直至无穷，也即 ··· 博弈的结构是共同知识。更准确地，策略式表述给出: ⑴博弈的参与人集合: I∈Γ,Γ={1,2,…n} ⑵每个参与人的策略空间 Si,i=1,2,…n ⑶每个参与人的支付函数 ui=(s1,…si,…sn),i=1,2,…n

大学课程《博弈论及其应用》PPT课件：第二章(1234节)

博弈方2
左
中
右
上博弈方1
下
1，0 0，4
1，3 0，2
0，1 2，0
图 2-7 划线法
博弈的相对优势策略位置在图2-7标出，策略组合{上，中}格子中的两个数字下面都划了短线，这个格子对应的策略组合就是由划线法得到的纳什均衡。
第四节箭头方法
还有一种寻找纳什均衡的方法，和划线法的分析理念的出发点不同，这种方法的思路是对博弈中的每个策略组合进行分析，判断各博弈方是否能够通过单独改变自己的策略而改善自己的得益，如果可以，则从所考察的策略组合的得益引一个箭头到改变策略后的策略组合对应的得益。这样对每个可能的策略组合都分析考察过以后，根据箭头反映的情况来判断博弈的结果。
博弈方2
Hale Waihona Puke 左中上博弈方1
下
1，0 0，4
1，3 0，2
右
0，1 2，0
图 2-8 箭头法
观察图2-8，在策略组合{上，中}中只有指向的箭头，没有指出的格子所代表的就是纳什均衡。
略“上”改变的倾向，用一个竖着的箭头表示这个倾向；横着比较后面的得益，4比2大，4比0大，博弈方2没有改变的动力。在策略组合{上，左}中，横着比较后面，分析博弈方2 的得益，3比0大，1比0大，所以博弈方2有从策略“左”向
策略“中”和策略“右”改变的倾向，用两个横向的箭头表示这两个改变的倾向。
在策略组合{上，中}中，竖着比较前面的得益，还是横着比较后面的得益，博弈方1和博弈方2都没有改变的倾向。在策略组合 {上，右}中，竖着比较前面，2比0大，博弈方1有从策略“上”
向策略“下”改变的倾向，用一个竖向的箭头表示这个倾向；横着比较后面，3比1大，博弈方2有从策略“右”向策略“中” 改变的倾向，用一个横向的箭头表示这个倾向。

经济博弈论第二章a 博弈论课件

2 q P ( Q ) C q q 8 ( q q ) 2 q 6 q q q q 博弈方2利润： u 2 2 2 2 2 1 2 2 2 1 2 2
* 在本博弈中， ( q 1* , q 2 ) 的纳什均衡的充分必要条件是 q 大值问题： * 2
* 1
和q
q2 （0,6）
R1（q2）
（2，2） 6 R2（q1）
（0，3）
0
（3,0）
（6,0）q1
从左图可以看出，当一方的选择为0时，另一方的最佳反应为3，这正是我们前面所说过的实现总体最大利益的产量，因为一家产量为零，意味着另一家垄断市场。当一方的产量达到6时，另一方则被迫选择0，因为实际上坚持生产已无利可图。
2.3.2 应用

混合策略的方法不仅可以解决不存在纯策略纳什均衡的博弈问题，同样可应用于存在多个纯策略纳什均衡的博弈问题。丈夫例夫妻之争时装足球该博弈与上一个博弈的不同之处在 0， 0 于每一方所希望对方知道自己的策略选妻时装 2，1 择以达到有利于自己的结果。现实中， 1， 3 子足球 0，0 这类问题多通过协商解决以免两败俱伤。在此我们假设夫妻双方不可协商，互不通消息。令pw（时）， pw（足）分别表示妻子选择时装表演和足球的概率； ph（时）， ph（足）为丈夫选择时装表演和足球的概率。同样的分析方法可得pw（时）=0.75, pw（足）=0.25; ph（时）=1/3, ph（足）=2/3.双方的期望得益分别为uwe＝0.67， uhe＝0.75。
d 2 b * 1 2 P ( a bc ) ( a b c ) 1 2 22 1 1 1 4 b b dd 4 b b dd 1 2 1 2 1 2 1 2 d 2 b * 2 1 P ( a b c ) ( a bc ) 2 1 11 2 22 4 b b dd 4 b b dd 12 1 2 12 1 2

博弈论-第二章

相应地，我们可以定义严格劣策略。严格劣策略是指存在某个策略无论在任何情况下，该策略带个参与者的收益都要严格大于另一个策略。
由此，可以看出严格优策略和严格劣策略的差异。严格优策略是全局性的，而严格劣策略只是相对于另一个策略而言。
因而严格劣策略的要求要比严格优策略要松，运用重复剔出严格劣策略（如果存在的话）通常都能够确定博弈的均衡。
但是，对于更一般的博弈，利用可理性化导致的结果可能是所有博弈组合都无法剔除，从而导致所有组合都可能是均衡这样的状态。
严格优策略通俗地说就是在任何情况下，该策略带给参与者的收益都要严格大于其它任意策略。
理解严格优策略的关键在于两个任意：给定对手任意的策略和自己任意的策略。
如果严格优策略存在，那么它必然是唯一的。这体现在命题2.1中。
我们现在就举例说明。
[例] 双边背离与纳什均衡
1.
2
2. 左右右
上 1,1,2 _ ,0, _ 1
下 0, _, _ 2, 2,1
2 左
_, _, 1 ……. …… …….
ห้องสมุดไป่ตู้
3
高
低
为了加深理解，我们来看一些经典例子。
见书43页—50页。
通过这些例子，要求：1、掌握如果概括博弈的方法——基本式，2、如何找纳什均衡。
混合策略通俗地说就是随机选择纯策略。在混合策略条件下，偏好实质上变成了v-N-M偏好，除了满足非对称性和负传递性外，还需满足替代公理和阿基米德公理。
伯努利收益函数满足线性变换。
我们知道，一个严格劣策略肯定是一个从来都不会选择的策略，在混合策略下，从来都不选择的策略同样是严格劣策略。但限制在纯策略下，这个逆命题却不成立。

博弈论(第二章)

设某个村庄有三个农户，该村有一片大家都可以自由放牧羊群的公共草地。由于这片草地的面积有限，因此只能让不超过某一数量的羊吃饱，如果在这片草地上的放牧的羊只的数量超过这个数量，则每只羊都无法吃饱，从而每只羊的产出（毛，皮和肉的总价值）就会减少，甚至有些羊就会饿死。
假设这些农户在夏天才到公共草地放羊，而每年的春天就要决定养羊的数量。
（2）严格下策反复消去法也不能解决所有的博弈分析问题。
严格下策反复消去法的思考问题：
（1）“严格下策”和“上策”之间有没有对应关系，什么
情况下有对应关系？（2）使用严格下策反复消去法所得到的均衡结果，是
否与消去的严格下策的次序有关。
严格下策反复消去法的练习
例2：下图中的得益矩阵表示两博弈方的一个静态博弈，试使用严格下策反复消去法进行分析。
纳什均衡的练习（1）
例1：囚徒困境
囚徒B
坦白
不坦白
坦白囚徒A
不坦白
-5， -5 -8， 0
0， -8 -1， -1
纳什均衡的练习（2）
例2：智猪博弈
大猪
踩
不踩
小猪
踩不踩
1.5， 3.5 5， 0.5
- 0.5， 6 0， 0
纳什均衡的练习（3）
例2：猜硬币的博弈
猜硬币者
正
反
正盖硬币者
反
-1， 1 1， -1
博弈方2
U
L
R
U 博弈方1
D
1， 0 0， 3
1， 2 0， 1
0， 1 2， 0
三、划线法
其中心思想是根据博弈方策略之间的相对优劣关系，导出博弈分析的“划线法”。
例：下图中的得益矩阵表示两博弈方的一个静态博弈，

第二讲纳什均衡

习题：齐威王田忌赛马矩阵

上中下上中下
田忌
上下中中上下中下上下中上下上中
+3，-3 +1，-1 +1，-1 -1，+1 +1，-1
+1，-1 +3，-3 -1，+1 +1，-1 +1，-1
+1，-1 +1，-1 +3，-3 +1，-1 -1，+1
+1，-1 +1，-1 +1，-1 +3，-3 +1，-1
在第二行1 下划线
2015年12月6日
博弈论第二章第二讲纳什均衡
20
第三节纳什均衡
三、寻找纳什均衡的方法（二）相对优势策略划线法 3.设定甲靠左行（第一行）乙： 1>-1 乙相对优势策略：靠左行
在第一列 1下划线
2015年12月6日
博弈论第二章第二讲纳什均衡
21
第三节纳什均衡
四、古诺模型 max i 2.企业i的目标： π1=？，π2=？ 3.企业利润最大化的一阶、二阶条件
1 0 q1 2 0 q2
2015年12月6日
2 1 2 0 2 q1 2 2 2 0 2 q 2
博弈论第二章第二讲纳什均衡
35
第三节纳什均衡
27
第三节
纳什均衡
要点：（1）箭头指向的支付大；（2）只有一方单独改变策略
三、寻找纳什均衡的方法（三）箭头指向法 2.分析：（适度放牧，过度放牧）（1）给定乙不变，甲改变：0→10 （箭头向上）（2）给定甲不变，乙也不变
2015年12月6日
博弈论第二章第二讲纳什均衡

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2 完全信息的动态博弈2.1完全和完美信息的动态博弈动态博弈(dynamic game)：参与人在不同的时间选择行动。

完美信息(perfect information): 在博弈的每次行动的参与人完全知道博弈的历史。

2.1.A 理论: 逆向归纳法简单的完全和完美信息博弈：1. 参与人 1 选择行动a 12. 参与人 2 观察a 1，然后选择a 23. 收益是 u 1(a 1, a 2)和u 2(a 1, a 2)求解博弈: 逆向归纳法 (backward induction)1. 求解第二个阶段，对于a 1，求a 222max A a ∈u 2(a 1，a 2)其解: a 2= R 2(a 1) ---- 反应函数2. 求解第一个阶段11m a x A a ∈ u 1(a 1，R 2(a 1))其解: a *1逆向归纳解(outcome): (a *1, R 2(a *1) )注意：在动态博弈中，行动与战略是不同的概念；逆向归纳解与纳什均衡是不同的概念。

关于逆向归纳法的理性假定例１1L R220 L'R'111 L''R''3 00 2用逆向归纳法:第3步：参与人1 选择L'';第2步：参与人2 选择L'；第1步：参与人1 选择L逆向归纳解: L(在第一个阶段结束)。

如果博弈在第一个阶段中不结束，可能原因是什么?2.1.B Stackelberg 模型二个企业，生产产量: q1, q2市场需求: P = a–Q, 其中Q = q1 + q2成本: C i (q i) = cq i, i = 1, 2.利润：πi (q1, q2) = Pq i–C i (q i) = (a– (q1 + q2))q i–cq i，博弈的顺序：(1) 企业1 选择q1≥ 0；(2) 企业2 观察q1然后选择q2≥ 0；(3) 收益: πi (q i , q j ) = q i [P (Q ) – c ]其中P (Q) = a – Q , Q = q 1 + q 2求逆向归纳解(1)阶段2，企业2在观察q 1后选择q 2满足02max ≥q q 2 (a – (q 1 + q 2) – c )解出q 2 = R 2 (q 1) =21cq a --(2)阶段1，企业 1知道R 2 (q 1)，求q 101max ≥q q 1 (a – (q 1 + R 2 (q 1))– c )=01max ≥q q 1 21c q a --解出q 1* =2ca -, R 2(q 1*) =4ca -与 Cournot 模型比较q 1* = q 2* =3ca -结果：先进入市场者有更多的利润。

2.1.C 工会与企业的工资和就业一个企业和一个工会，关于工资w 和就业数量L 的决定。

工会收益: U (w , L );企业收益: π(w , L ) = R (L ) – wL ，R '(0) = ∞ ，R '(∞) = 0 博弈的顺序:(1) 工会选择工资w ;(2) 企业观察 w 且选择 L .wL工会的无差异曲线求逆向归纳解(1) 阶段2企业对w，选择L求max [R(L) –wL]一阶条件R'(L)–w = 0RR(L)L(w) L可以得到企业的反应函数：L(w)利用等利润曲线π = R(L) –wL分析：1. w = (R(L) –π)/L，等利润线的位置越低，利润越大；2. dw/dL = [R'(L) –w]/L，随L增加，等利润曲线先是正斜率，然后是负斜率。

3. 企业的选择在等利润线的顶点上。

w L (w)L(2) 阶段1工会知道L(w)，求Max U(w, L)s. t. L = L(w)逆向归纳解(w*, L(w*))w L (w)L此结果是非最优的(inefficient)。

2.1.D 序贯谈判参与人1 和参与人2 谈判分配一元钱(s, 1 –s ).三期的谈判模型(1a) 参与人1 提议分配方案：(s1, 1 –s1 )；(1b) 参与人2接受提议或拒绝提议。

如果参与人2拒绝，进入第2阶段;(2a) 参与人2提议 (s 2, 1 – s 2 )(2b) 参与人 1接受提议或拒绝提议。

如果参与人1拒绝，进入第3阶段；(3) 按外生方案分配，参与人 1 分得s ，参与人2分得1–s 。

贴现率: δ求逆向归纳解(1) 在阶段 2如果s 2 ≥ δs 参与人 1 将会接受s 2。

取s 2 = δs ，则1 – s 2 ≥ δ(1 – s )。

结果: 参与人 2 将会提议 s *2 = δs ，参与人 1 将会接受。

(2) 在阶段 1如果 1 – s 1 ≥ δ(1 – s *2) 即 s 1 ≤ 1 – δ(1 – s *2 ) ,参与人 2 将会接受 s 1当 s 1 = 1 – δ(1 – s *2 )， s 1 ≥ δs *2结果: 参与人 1 将会提出s *1 = 1 – δ(1 – s *2 ) = 1 – δ(1 –δs )参与人 2 将会接受 1 – s *1.逆向递归解为[1 – δ(1 –δs )， δs ]无限时间情形：不存在外生终止时间，无限重复阶段1与2。

假设结果是在第1期分配 (s 1*, 1 – s 1*)。

而在第1期和第2期未结束，在第3期分配 (s , 1 – s )。

第一期结果与第三期相同。

s = s *1 = 1 – δ(1 – s *2 ) = 1 – δ(1 –δs )结果s =δ+11, 1 – s = δδ+12.2 完全非完美信息二阶段博弈2.2.A 理论: 子博弈精炼完全非完美信息的二阶段博弈:(1) 参与人1 和2 同时选择a1和a2;(2) 参与人3 和4 观察(a1, a2), 然后同时选择a3 和a4;(3) 收益是u i(a1, a2, a3, a4), i =1, 2, 3, 4.逆向归纳法在第二阶段博弈, 参与人3 和4: (a*3(a1, a2), a*4(a1, a2)).在第一阶段，参与人1 和参与人2: (a*1, a*2).子博弈精炼解(sub-game perfect outcome)(a*1, a*2, a*3(a*1，a*2), a*4(a*1, a*2))2.2.B 银行挤提二个投资者在一个银行存款D.银行: 如果提前变现，得：2r如果到期，得：2R在期1投资者2提款不提提款r，r D，2r–D投资者1不提2r– D, D下阶段在日期2提款不提提款R，R2R–D，D不提D, 2R–D R, R求子博弈精炼解(1) 在期2, (取款，取款), 收益(R, R)(2) 将第2期收益代回，在期1,提款不提提款r，r D，2r– D不提2r–D, D R, R二个纯战略纳什均衡: (取款，取款)，(不取，不取).两阶段博弈有二个子博弈精炼解：在日期1 两人都取款, (r, r)；在日期1 两人都不取款, 但是在日期2 取款, (R, R)。

2.2.C 关税和国际市场竞争两个国家：1，2。

每国市场需求：P i(Q i) = a–Q i = a– (h i+ e j )，政府：制定关税t i企业：生产产品供给本国h i和出口e i生产成本C = c(h i+ e j)博弈的时间顺序政府选择关税企业观察税率，选择产量企业收益为利润πi (t i , t j , h i , e i , h j , e j ) =[a –(h i + e j )]h i +[a –( e i + h j )] e i – c (h i + e i )– t j e i 政府收益为本国总福利w i (t i , t j , h i , e i , h j , e j ) =21Q i 2 + π(t i , t j , h i , e i , h j , e j ) + t i e j求子博弈精炼解第2阶段，两个企业的纳什均衡在观察t i 与t j 后，国家i 的企业选择(h i , e i )，求max πi (t i , t j , h i , e i , h j , e j )有一阶条件d πi /dh i = a – 2h i –e j – c = 0d πi /de i = a – 2e i – h j – (c + t j ) = 0两个企业的反应函数h 1* =21(a – e 2* – c ) e 1* =21(a – h 2 * – c – t 2) h 2* =21(a – e 1* – c ) e 2* =21(a – h 1* – c – t 1) 可以解出h 1* =31(a – c + t 1 ) e 1* =31(a – c – 2t 2) h 2* =31(a – c + t 2 ) e 2* =21(a – c – 2t 1)第1阶段，两个政府的纳什均衡w i (t i , t j , h i , e i , h j , e j ) = 21Q i 2 + π(t i , t j , h i , e i , h j , e j ) + t i e j=21Q i 2 +[a – (h i + e j )]h i + [a –( e i + h j )] e i – c (h i + e i ) – t j e i + t i e j = 21[31(a – c + t i ) + 21(a – c – 2t i )]2 + [a – (31(a – c + t i ) + 31(a – c – 2t i ))]×31(a – c + t i ) + [a – (31(a – c – 2t j ) + 31(a – c + t j ))]×31(a – c – 2t j ) – c (31(a – c + t i ) +31(a – c – 2t j ))– t j 31(a – c – 2t j ) + t i 31(a – c – 2t i ) 一阶条件dw i /dt i = [31(a – c + t i ) + 21(a – c – 2t i )]( –32) + [a – (31(a – c + t i ) + 31(a – c – 2t i ))]31+31⨯31(a – c + t i ) – c 31+ 31(a – c – 2t i ) - 32t i = 0可解出t i =3c a - 从而h i =9)(4c a - , e i = 9c a -2.2.D 竞赛二个工人和他们的老板.阶段 1, 老板提出工人的工资,: w H , w L (即a 1) 产量高者得高工资，低者得低工资。