第四章重复博弈习题讲解

合集下载

4第四章：重复博弈

颤抖手均衡
U
博弈方2 L
10，0
R
6，2
博弈方1
D
10，1
2，0
• 顺推归纳法
1. 顺推归纳法——分析方法，其结果到底是策略还是均衡？
以退为进，迂回争取最大利益。以策略选择为依据，整体形成一条均衡路径。
2.顺推归纳法与颤抖手均衡不要混为一谈
顺推归纳法的基本前提是博弈方有意识的犯错误以争取更大得益，
1. 重复博弈的策略在每个阶段（即每次重复），针对每种情况（前期阶段的结果）如何行为的计划。
2. 重复博弈的子博弈
重复博弈是动态博弈，故其同动态博弈一样既有阶段也有子博弈。
重复博弈的子博弈是从某个阶段（不包括第一阶段）开始，
包括以后所有阶段的重复博弈部分。重复博弈的子博弈要么仍然是重复博弈，要么就是原博弈。
蜈蚣博弈
逆推归纳法：博弈的效率越来越低理论依据
多个纯策略纳什均衡的有限次重复博弈
关注点：原博弈的纳什均衡没有达到帕累托效率，是否存在通过合作进一步提高效率的潜在可能性及其在有限次重复博弈中能不能实现合作和提高效率的问题。
1. 三价博弈的重复博弈
博弈模型：
设一市场有两个生产同质产品的厂商，他们对产品
均衡策略（组合）不管是静态博弈还是动态博弈均衡没有强调策略的次序问题。
如囚徒困境博弈的均衡策略是博弈双方均选择坦白；或如甲
乙开矿法律保障不足的博弈。
3.颤抖手均衡中偶然性犯错及其概率到底如何理解？
颤抖手均衡是在多个纳什均衡中寻找，其偶然性犯错误的概
率恰为多个纳什均衡的混合策略纳什均衡中不同博弈方选择不同策略的概率。
三、重复博弈的分类
1. 有限次重复博弈基本博弈进行有限次重复 2. 无限次重复博弈

[经济学]4 重复博弈--博弈论

策略、子博弈和均衡路径
得益
总得益 / 平均得益
贴现系数
T
1 223 T 1T
t 1 t
t 1
12 23 t1t
h
t1
4
4.2 有限次重复博弈
4.2.1 有限次重复的囚徒困境博弈 4.2.2 连锁店悖论 4.2.3 有限次重复猜硬币博弈 4.2.4 ★有限次两企业、两差别市场重复博弈 4.2.5 民间定理
Med Q 9,4
12,10 10, 18
Low Q 3, 6 20, 8
18, 15
Saudi Arabia
h
16
重复博弈
合理的猜想：
石油生产和出口年年持续进行，OPEC的制约和协调按理说总是有一定作用的。各国不可能对合作的巨大好处无动于衷，再加上我们要考虑到成员国中最大的产油国，如沙特阿拉伯在其中会起一定的积极作用，带头克制自己的行为。因此OPEC这个是否突破限额的重复博弈的结果理应比完全没有制约独立决定产量的结果要好得多。
第一阶段第二阶段
(A , B)
(B , A)
(B , A)
(A , B)
(A , B)
(A , B)
(B , A)
(B , A)
混合策略
混合策略
(A , B)
(B , A) 混合策略混合策略
混合策略混合策略
(B , A) (A , B)
平均（期望）得益
企业1
企业2
2.5
2.5
2.5
2.5
1
4
4
不少非OPEC成员国加入市场，使得OPEC的限产作用失效，白白丧失许多市场份额和利润。
OPEC成员之间地位不平衡，部分成员觉得限额不公平从而相继突破限额。

第四讲重复博弈(下)详解

5,5 6,0 2,0
L
0,2 0,2 1,1
存在两个纯策略纳什均衡（ M,M ）和 (L,L) （还有混合策略）。但显然（ H,H ）帕雷托效率最高。是否重复（两次）进行能够实现使效率改善？
触发策略（trigger strategy）
一方的机会主义行为将触发其他参与人策略中的惩罚机制发生。我们把这种包含着奖励和惩罚机制的策略称为触发策略。正是由于害怕“触发”其他参与人的惩罚机制，所以不敢利用机会使自己在该阶段利益最大化，从而使该阶段的 “合作”出现。从这个意义上看，触发策略是 “温柔的”。
表3 囚徒困境博弈
乙
招
不招 -5,-13 -6,-6
招
甲不招
-10,-10 -13,0
Proposition If the stage game G has a unique Nash equilibrium then, for any finite T,the repeated game G(T) has a unique subgameperfect outcome:the Nash equilibrium of G is played in every stage.
一、无限次重复的囚徒困境
• 以寡头削价竞争为例 • 基本博弈的结果是（L,L）。寡头1 H L 寡 H 4， 4 0， 5 头 5， 0 1， 1 L 2
引入贴现因子δ, 若某个参与人在某一路径的各个阶段的支付分别为： π1 、 π2 、……，则该参与人在该路径的“总支付” π为无限序列 π1 、 π2 、……的现值之和，即： 0≤δ≤1 δ？ π = π1+ δ π2 + δ2 π3 + …… ∞ 当δ 0，行动短视化，时间 = ∑ δt-1 πt t =1 视野往往局限于本期、近期；当δ 1，参与人有远见，他充分意识到他现期的行动决策将通过其他参与人的反应影响到他未来的收益，因而试图跨期协调其行动决策。

重复博弈的详细介绍

• 一报还一报战略的胜利对人类和其他生物的合作行为的形成具有深刻地含义。
• 爱克斯罗德在《合作进化》一书中指出，一报还一报战略能导致社会各个领域的合作，包括在最无指望的环境中的合作。
• 典型的例子就是越战中自发产生的“自己活，也让他人活”的原则：只要对方不开枪伤人，我也不开枪。
一报还一报—自然界的例子
• 猜想：杀鸡儆猴的效应
单阶段博弈矩阵
支付在位者
进入者
进入
默许 3，3
斗争 -1，0
不进入
1，10
1，10
纳什均衡为：在位者在每一个市场选择默许，进入者在每一个市场选择进入。
单阶段扩展式博弈
k
I A
F
C
O
1,10
-1,0
3,3
阶段博弈的子博弈精炼纳什均衡为：在位者在每一个市场选择默许，进入者在每一个市场选择进入。
• 该博弈存在唯一的Nash均衡，即（U，L）。
• 同时注意到，该博弈还存在一个高效均衡（D， R），高效均衡对应着一种合作行为。
• 为什么高效的均衡不是纳什均衡？如何保证这一高效均衡能够实现？
两次重复博弈的博弈树
假设将上述博弈重复两次，那么第二次博弈开始时，第一次博弈的结果可视为已知。
1
2 1
平均收益
给定贴现率，无限的收益序列1，2，3
的平均收益为
(1 ) t1t
t 1
阶段博弈收益相等时的总收益
所以
故
2 t1t t 1
1
t1 t
t 1
(1 ) t1t t 1
重复博弈总收益
无限次重复博弈的无名氏定理：
• 令G为一个n人阶段博弈，令(e1,e2, ,en ) 为G的

博弈论课件4重复博弈

5 1 1 2 5
如果博弈方2采用H，总得益现值为：
1
V 4 V
因此当 1/ 4时，此触发策略纳什均衡策略。
4.3.2 惟一纯策略纳什均衡的无限次重复博弈
无限次重复博弈民间定理（弗里德曼，1971）
设G是一个完全信息的静态博弈，用(e1, , en )记G的纳什均衡得益，
用(x , 1
重复囚徒困境悖论和连锁店悖论
☻理论和实践的直觉矛盾，现实中寡头之间的价格战问题并不十分普遍，重复次数较大的实验研究的结果（重复200 次的囚徒困境）
☻泽尔腾(1978)，“连锁店悖论” （导论中的先来后到博弈），实际中对开头几个市场的进入者不计代价的打击
☻问题的症结与蜈蚣博弈类似，在于在较多阶段的动态博弈中逆推归纳法的适用性T t1t 1t1 2 23
t1
t 1
t
4.1.2 基本概念
平均得益：如果一常数作为重复博弈（有限次重复博弈或
无限次重复博弈）各个阶段的得益，能产生与得益序列
1， 2,相同的现在值，则称为1， 2,的平均得益
无限次重复博弈时
2 (1 )
1 2 23
4.2.3 多个纯策略纳什均衡的有限次重复博弈
三价博弈的两次重复博弈
+1
厂H 商M
1L
H
5，5 6，0 2，0
厂商2
M 0，6 3，3 2，0
L
0，2 0，2 1，1
+3
厂H 商M 1L
H
8，8 7，1 3，1
厂商2 M
1，7 4，4 3，1
L
1，3 1，3 2，2
三价博弈
两次重复三价博弈的等价博弈
有限次重复博弈民间定理

第四讲重复博弈详解

1
重复博弈和信誉问题

如果博弈不是一次的，而是重复进行的，参与人过去行动的历史是可以观察到的，参与人就可以将自己的选择依赖于其他人之前的行动，因而有了更多的战略可以选择，均衡结果可能与一次博弈大不相同。重复博弈理论的最大贡献是对人们之间的合作行为提供了理性解释；在囚徒困境中，一次博弈的唯一均衡是不合作（即坦白）。但如果博弈无限重复，合作就可能出现。
7
市场秩序的信誉基础

经济发展史表明,在本来不认识的人之间建立相互之间的信任关系是交易范围扩大和经济发展的关键, 而制度作为博弈的规则 ,是建立和维持人们之间信任的关键(Milgrom、North和Weingast,1990)。如果制度安排使得当事人履行契约比不履行契约更有利可图,使得人们有积极性为了交易带来的长远利益而抵挡短期的机会主义行为的诱惑,人们之间的信任就可以建立起来.正是从这个意义上,我们说信任是一个制度问题.
9
市场秩序的信誉基础

但新制度经济学证明,法律制度的作用被大大地夸大了(Greif , 1996) , 法律制度并不是合同得以执行的唯一制度安排。即使不借助于国家的权威,非正式的合约也可以支持交易的进行。经验研究表明,即使在象美国这样法律制度最健全的国家,大部分的交易活动也是通过非正式的合约安排进行的, 商业纠纷的解决常常并不借助法律的裁决(Macaulay , 1985 ; Macneil , 1985) 。
张维迎
2002年，他关于中国企业的核心竞争力、中国企业如何做大、如何重建社会信任和企业信誉的阐述，引起人们对这三大问题的空前关注和讨论，当选为“CCTV2002年中国经济年度人物”。
5
市场秩序的信誉基础:

博弈论以及应用之4重复博弈

重复博弈分类

无限次重复博弈

给定一个基本博弈G重复无限多次，记为G(∞)。重复的次数是有限的，但是具体结束时间是不确定的，每一阶段都有可能结果博弈。

随机结束重复博弈

重复博弈特点

各阶段相互独立，前阶段博弈不会改变后阶段博弈的结构所有局中人都能看到博弈历史参与人的收益等于各阶段收益的贴现值之和或加权平均
22
4.2 有限次重复博弈

两市场博弈的重复博弈

重复三次

触发机制

厂商1：第一阶段，选择A；如果第一阶段结果为(A, A)，那么第二阶段选择A；如果第一阶段结果为(A, B)，那么第二阶段选择B；第三阶段无条件选择B。厂商2：第一阶段，选择A；第二阶段无条件选择B；如果第一阶段结果为(A, A)，那么第三阶段选择A；如果第一阶段结果为 (A, B)，那么第三阶段选择B。子博弈精炼纳什均衡为(A ,A), (A, B), (B, A)，双方平均收益分别为(2.67, 2.67)，较重复两次有提高，验证了猜想！
T M
L 3, 1 2, 1 1, 2
C 0, 0 1, 2 1, 1
R 5, 0 3, 1 4, 4
B
2013-8-4104.2 有 Nhomakorabea次重复博弈

多重纳什均衡博弈的有限次重复博弈

阶段博弈的纳什均衡
用画线法容易求得纯战略纳什均衡为(3,1)和(1,2)。根据奇数定理，很可能还有一个混合战略纳什均衡。求解可得混合战略纳什均衡为((1/3, 1/2, 1/6), (1/5, 3/5, 1/5))，其中局中人1的收益为8/5，局中人2的收益为7/6。

@第4章重复博弈

*
*
*
最后这个不等式正是存在有效工资率，工作激励有效的基 131 本条件。
三、无限次重复博弈
（四）效率工资博弈
综上所述，在满足 y w 0和w w e 1 e (1 p)
* * 0
的条件下，双方的触发策略构成一个纳什均衡。而上述两式实际上意味着 1 y e w e (1 p)
131
（一）两人零和博弈的无限次重复博弈
两人零和博弈无限次重复与有限次重复博弈的结果并不会有什么不同，所有阶段都不可能发生合作，博弈方会一直重复原博弈的混合策略纳什均衡。
三、无限次重复博弈
131
（二）唯一纯策略纳什均衡无限次重复博弈两种情况
三、无限次重复博弈
*
e
s
0
0
努力是工人的最佳选择。
反过来，设工人已采用上述触发策略。若厂商给的工资率满足上式条件，并且威胁一旦产量降低就解雇工人，则各阶段的得益为 y w，无限次重复博弈得益现值为 ( y w ) (1 ) 。 * 若不愿给 w ，则解雇工人，以后得益为0。因此只要y w 0 厂商选择前述触发策略就是最佳反应。
131
（二）唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
H2
H1
L2
L1
4，4 5，0
0，5 1，1
该博弈一次性博弈均衡是都采用低价，是囚徒困境型博弈
三、无限次重复博弈
131
（二）唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
【了解】无限次重复博弈的“民间定理”（P134）

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• （2）证明：两次重复的均衡路径是（下，右)到(上,左)；非均衡路径为（*，*）到（中，中） • 因为第二阶段本身是原博弈的纳什均衡，因此不会有哪一方偏离。 • 第一阶段的策略组合虽不是原博弈的纳什均衡，博弈方1单独偏离会多得到1个单位的好处，但会得到第二阶段博弈方2的报复，即第二阶段损失2个单位的得益。因此，在第二阶段利益的制约下（，因此该策略组合是一个子博弈完美纳什均衡。
• （3）将（下，左）的得益改为（1，5）情况会发生质的变化。因为此时第一阶段两博弈方都有偏离（下，右）的动机，而上述博弈又不存在同一个阶段中同时对两博弈方惩罚或奖励的纳什均衡，因此重复两次时不可能存在子博弈完美纳什均衡部分实现（4，4）得益。 • 至少在部分阶段实现得益（4，4）的条件是重复博弈的次数达到三次或以上，或者得益进一步改变到（下，右）是原博弈的纳什均衡。如设计触发策略： • 博弈方1：第一阶段选“下“，出现结果（下，右），则第二阶段继续选”上“，第三阶段选”中“。 • 如果第一阶段没有出现，（下，右），则第二、第三阶段选混合策略均衡。 • 博弈方2：第一阶段选“右“，出现结果（下，右）则第二阶段选”左“，第三阶段选”中“，否则第二、三阶段选择混合策略的均衡。 • 均衡路径为（下，右）（上，左）（中，中）
• 答：（1）上述静态博弈有两个纯策略纳什均衡（上，左）和（中，中）。由于策略组合（下，右）实现的得益（4，4）对博弈方2来说已是最理想的，因此博弈方2不会有偏离的动机，只有博弈方1可能有偏离动机，因此可设计如下触发策略。
• 博弈方1：第一阶段采取下；如果第一阶段的结果是（下，右）则采取上，否则采取中。 • 博弈方2：第一阶段采取右；如果第一阶段的结果是（下，右）第二阶段采取左，否则采取中。