4第四章：重复博弈

合集下载

第四章重复博弈习题讲解

• （2）证明：两次重复的均衡路径是（下，右)到(上,左)；非均衡路径为（*，*）到（中，中） • 因为第二阶段本身是原博弈的纳什均衡，因此不会有哪一方偏离。 • 第一阶段的策略组合虽不是原博弈的纳什均衡，博弈方1单独偏离会多得到1个单位的好处，但会得到第二阶段博弈方2的报复，即第二阶段损失2个单位的得益。因此，在第二阶段利益的制约下（，因此该策略组合是一个子博弈完美纳什均衡。
• （3）将（下，左）的得益改为（1，5）情况会发生质的变化。因为此时第一阶段两博弈方都有偏离（下，右）的动机，而上述博弈又不存在同一个阶段中同时对两博弈方惩罚或奖励的纳什均衡，因此重复两次时不可能存在子博弈完美纳什均衡部分实现（4，4）得益。 • 至少在部分阶段实现得益（4，4）的条件是重复博弈的次数达到三次或以上，或者得益进一步改变到（下，右）是原博弈的纳什均衡。如设计触发策略： • 博弈方1：第一阶段选“下“，出现结果（下，右），则第二阶段继续选”上“，第三阶段选”中“。 • 如果第一阶段没有出现，（下，右），则第二、第三阶段选混合策略均衡。 • 博弈方2：第一阶段选“右“，出现结果（下，右）则第二阶段选”左“，第三阶段选”中“，否则第二、三阶段选择混合策略的均衡。 • 均衡路径为（下，右）（上，左）（中，中）
• 答：（1）上述静态博弈有两个纯策略纳什均衡（上，左）和（中，中）。由于策略组合（下，右）实现的得益（4，4）对博弈方2来说已是最理想的，因此博弈方2不会有偏离的动机，只有博弈方1可能有偏离动机，因此可设计如下触发策略。
• 博弈方1：第一阶段采取下；如果第一阶段的结果是（下，右）则采取上，否则采取中。 • 博弈方2：第一阶段采取右；如果第一阶段的结果是（下，右）第二阶段采取左，否则采取中。

博弈论(重复博弈)

第四章重复博弈（p129~）
§4.1 基本概念
一、什么是重复博弈二、重复博弈的分类三、重复博弈的策略四、重复博弈的收益
§4.2 有限次重复博弈
一、2人零和博弈的重复二、有唯一纯策略NE的有限次重复博弈三、连锁店悖论（Chainstore Paradox)
H
L
4,4
5,0
0,5
1,1
ห้องสมุดไป่ตู้
可以证明，当贴现因子较大时，上述策略组合构成了SPNE:
1)TS 是 NE 2)这个NE是SPNE
2.无限次重复博弈的民间定理（p133,定理5.1)
一个n人有限博弈G中，设（x1, x2,… xn)是G的任意可实现收益，那么无限次重复博弈G(∞, δ) 中必存在一个 SPNE，各局中人的平均收益即为（x1, x2,… xn)，只要满足如下条件： 1) 时间偏好率 r =0 或是充分小的正数； 2)博弈在任意阶段结束的概率为0或是充分小的正数； 3)支付组合的元素是n维的，且严格帕累托优于G的最小最大收益组合。
若干无限次充分博弈的例
1.“单边”的囚徒困境博弈（p139）
抵赖抵赖坦白 5，5
10，-5
坦白
-5，10
购买高质低质 5，5
10，-5
抵制 0，0 0，0
0，0
2.产品质量博弈(p143)
均衡成立应满足的条件：激励相容竞争市场出清
3.消费者转换成本博弈（p146）
马尔可夫过程寻求马尔可夫策略（Markov st.)
合作收益集
例
B1 (开发A） B2 (开发B） a1 (开发A） 3，3 a2 (开发B） 4，1 1，4 0，0

第四章重复博弈

通用面粉
策略无广告 12，12 20，1 中等强度 1，20 6，6 高强度 -1，15 0，9 无广告中等强度
凯洛格
高强度
15，-1
9，0
2，2
纳什均衡
无限重复博弈
如果企业每年都进行这种一次博弈，并且永远进行下去，这时参与人可以对对手的“欺骗”行为进行惩罚或报复。在这种情况下，共谋起作用吗？
4.2.2 有限次重复的囚徒困境博弈

如果原博弈存在唯一的纯策略纳什均衡组合，则有限次重复博弈的唯一的均衡解即各博弈方在每阶段（即每次重复）中都采用原博弈的纳什均衡策略。由于在这样的双方策略下，均衡路径中的每个阶段都不存在不可信的威胁或许诺，因此这种均衡是子博弈完美纳什均衡。
4.2.2 有限次重复的囚徒困境博弈
凯洛格
中等强度高强度
Kellogg从欺骗行为中获得的好处:

欺骗 - 合作 = 20 + 2/i - (12 + 12/i) = 8 - 10/i – 假设i = .05 欺骗 - 合作 = 8 - 10/.05 = 8 - 200 = -192 欺骗没有好处. – 在无限次重复博弈中共谋是纳什均衡!
通用面粉
策略无广告 12，12 20，1 15，-1 中等强度 1，20 6，6 9，0 高
无广告中等强度高强度
欺骗行为的收益和成本

如果当前收益 > 未来成本的现值
–
欺骗行为是有利的欺骗行为没有好处
通用面粉
策略无广告 12，12 20，1 15，-1 中等强度 1，20 6，6 9，0 高强度 -1，15 0，9 2，2 无广告中等强度高强度
一次广告博弈

4经济博弈论-重复博弈

8、第一阶段混合策略，第二阶段(A,B) (3,6)
9、第一阶段混合策略，第二阶段(B,A) (6,3)
5
结论：
轮换策略是该重复博弈的最佳子博弈完美纳什均衡
三次重复博弈的情形?
厂商1和厂商2可以分别采用如下触发策略：
厂商1：第一阶段选A；如果第一阶段结果是（A，A），则第二阶段选A，如果第一阶段结果是（A，B），则第二阶段选B；第三阶段无条件选B。厂商2：第一阶段选A；第二阶段无条件选B；如果第一阶段结果是（A，A），则第三阶段选A，如果第一阶段结果是（B， A），则第三阶段选B。
寡高价头 1 低价
寡头2 高价低价
１００，１００
２０，１５０
１５０，２０
７０，７０
削价竞争博弈
根据前面得到的一般结论，以它为原博弈的有限次重复博弈的唯一的子博弈完美纳什均衡，就是两博弈方重复5次原博弈的纳什均衡策略，也就是削价，两寡头还是会不断打价格战。
4.2 有限次重复博弈
结果为(A,A)、(A,B)、(B,A)，得益为（8，8）
证明：
1、第三阶段（B,A）是原博弈的纳什均衡，不会有哪一方愿单独偏离。
厂A 商
1B
厂商2 A B
3，3
1，4
4, 1
0，0
两市场博弈
证明：
2、第二阶段（A,B）是原博弈的纳什均衡，不会有哪一方愿单独偏离。
厂A 商
1B
厂商2 A B
总得益
如果一个无限次重复博弈的某博弈方某一均衡下各阶段得益分别为 p1,p 2 ,L L ，则考虑时间价值的重复博弈总得益现在值为
¥
å p = p 1 + dp 2 + d 2p 3 + L = d t-1p t

第四章重复博弈

1 2 2 3
T 1 T t 1 t
t 1
T
重复无限期的重复博弈总得益为：
1 2 2 3
t 1 t
t 1

四作为重复博弈（有限次重复博弈或无限次重复博弈）各个阶段的得益，能产生与得益序列
引言
有限次重复博弈和无限次重复博弈的区别：一是：有限次重复博弈存在最后一次重复，而无限次重复博弈无最后一次重复。注意到正是由于有最后一次重复使得有限次重复博已无法实现高效率。二是：无限次重复博弈不能忽略资金的时间价值。但相同之处：都是试图“合作”和惩罚“不合作”——关键
4.3.1 两人零和博弈的无限次重复博弈
Cont..
实际上，触发策略的可信性是一个复杂的问题，会受到各方面因素的影响。例如：心情，性格等但并不是每个触发策略都不可信。所以利用触发策略分析重复博弈是有价值的。
三、两市场博弈的重复博弈
厂商2 A 厂商 1 A B 3 ，3 4 ，1 B 1，4 0，0
两市场博弈
4.2.4 有限次重复博弈的民间定理
囚徒2 坦白不坦白囚坦白 -5，-5 徒 1 不坦白 -8，0 0，-8
-1，-1
囚徒2 坦白不坦白囚坦白 -10，-10 -5，-13 徒 -13，-5 -6，-6 1 不坦白（-10，-10）
（-5，-5）
四、重复囚徒困境悖论和连锁店悖论
有惟一纯策略Nash均衡的有限次重复博弈的分析和定理是强烈的，但这与人们的直觉经验有矛盾，大量的实验研究表明，其结果与理论结果也不一样。 1978年，塞尔顿提出的“连锁店悖论” 在n个市场(例如n个城市)都开设有连锁店的企业，对各个市场的竞争者是否应该打击的策略选择？

博弈论课件4重复博弈

5 1 1 2 5
如果博弈方2采用H，总得益现值为：
1
V 4 V
因此当 1/ 4时，此触发策略纳什均衡策略。
4.3.2 惟一纯策略纳什均衡的无限次重复博弈
无限次重复博弈民间定理（弗里德曼，1971）
设G是一个完全信息的静态博弈，用(e1, , en )记G的纳什均衡得益，
用(x , 1
重复囚徒困境悖论和连锁店悖论
☻理论和实践的直觉矛盾，现实中寡头之间的价格战问题并不十分普遍，重复次数较大的实验研究的结果（重复200 次的囚徒困境）
☻泽尔腾(1978)，“连锁店悖论” （导论中的先来后到博弈），实际中对开头几个市场的进入者不计代价的打击
☻问题的症结与蜈蚣博弈类似，在于在较多阶段的动态博弈中逆推归纳法的适用性T t1t 1t1 2 23
t1
t 1
t
4.1.2 基本概念
平均得益：如果一常数作为重复博弈（有限次重复博弈或
无限次重复博弈）各个阶段的得益，能产生与得益序列
1， 2,相同的现在值，则称为1， 2,的平均得益
无限次重复博弈时
2 (1 )
1 2 23
4.2.3 多个纯策略纳什均衡的有限次重复博弈
三价博弈的两次重复博弈
+1
厂H 商M
1L
H
5，5 6，0 2，0
厂商2
M 0，6 3，3 2，0
L
0，2 0，2 1，1
+3
厂H 商M 1L
H
8，8 7，1 3，1
厂商2 M
1，7 4，4 3，1
L
1，3 1，3 2，2
三价博弈
两次重复三价博弈的等价博弈
有限次重复博弈民间定理

博弈论以及应用之4重复博弈

重复博弈分类

无限次重复博弈

给定一个基本博弈G重复无限多次，记为G(∞)。重复的次数是有限的，但是具体结束时间是不确定的，每一阶段都有可能结果博弈。

随机结束重复博弈

重复博弈特点

各阶段相互独立，前阶段博弈不会改变后阶段博弈的结构所有局中人都能看到博弈历史参与人的收益等于各阶段收益的贴现值之和或加权平均
22
4.2 有限次重复博弈

两市场博弈的重复博弈

重复三次

触发机制

厂商1：第一阶段，选择A；如果第一阶段结果为(A, A)，那么第二阶段选择A；如果第一阶段结果为(A, B)，那么第二阶段选择B；第三阶段无条件选择B。厂商2：第一阶段，选择A；第二阶段无条件选择B；如果第一阶段结果为(A, A)，那么第三阶段选择A；如果第一阶段结果为 (A, B)，那么第三阶段选择B。子博弈精炼纳什均衡为(A ,A), (A, B), (B, A)，双方平均收益分别为(2.67, 2.67)，较重复两次有提高，验证了猜想！
T M
L 3, 1 2, 1 1, 2
C 0, 0 1, 2 1, 1
R 5, 0 3, 1 4, 4
B
2013-8-4104.2 有 Nhomakorabea次重复博弈

多重纳什均衡博弈的有限次重复博弈

阶段博弈的纳什均衡
用画线法容易求得纯战略纳什均衡为(3,1)和(1,2)。根据奇数定理，很可能还有一个混合战略纳什均衡。求解可得混合战略纳什均衡为((1/3, 1/2, 1/6), (1/5, 3/5, 1/5))，其中局中人1的收益为8/5，局中人2的收益为7/6。

@第4章重复博弈

*
*
*
最后这个不等式正是存在有效工资率，工作激励有效的基 131 本条件。
三、无限次重复博弈
（四）效率工资博弈
综上所述，在满足 y w 0和w w e 1 e (1 p)
* * 0
的条件下，双方的触发策略构成一个纳什均衡。而上述两式实际上意味着 1 y e w e (1 p)
131
（一）两人零和博弈的无限次重复博弈
两人零和博弈无限次重复与有限次重复博弈的结果并不会有什么不同，所有阶段都不可能发生合作，博弈方会一直重复原博弈的混合策略纳什均衡。
三、无限次重复博弈
131
（二）唯一纯策略纳什均衡无限次重复博弈两种情况
三、无限次重复博弈
*
e
s
0
0
努力是工人的最佳选择。
反过来，设工人已采用上述触发策略。若厂商给的工资率满足上式条件，并且威胁一旦产量降低就解雇工人，则各阶段的得益为 y w，无限次重复博弈得益现值为 ( y w ) (1 ) 。 * 若不愿给 w ，则解雇工人，以后得益为0。因此只要y w 0 厂商选择前述触发策略就是最佳反应。
131
（二）唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
H2
H1
L2
L1
4，4 5，0
0，5 1，1
该博弈一次性博弈均衡是都采用低价，是囚徒困境型博弈
三、无限次重复博弈
131
（二）唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
【了解】无限次重复博弈的“民间定理”（P134）

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

颤抖手均衡
U
博弈方2 L
10，0
R
6，2
博弈方1
D
10，1
2，0
• 顺推归纳法
1. 顺推归纳法——分析方法，其结果到底是策略还是均衡？
以退为进，迂回争取最大利益。以策略选择为依据，整体形成一条均衡路径。
2.顺推归纳法与颤抖手均衡不要混为一谈
顺推归纳法的基本前提是博弈方有意识的犯错误以争取更大得益，
1. 重复博弈的策略在每个阶段（即每次重复），针对每种情况（前期阶段的结果）如何行为的计划。
2. 重复博弈的子博弈
重复博弈是动态博弈，故其同动态博弈一样既有阶段也有子博弈。
重复博弈的子博弈是从某个阶段（不包括第一阶段）开始，
包括以后所有阶段的重复博弈部分。重复博弈的子博弈要么仍然是重复博弈，要么就是原博弈。
蜈蚣博弈
逆推归纳法：博弈的效率越来越低理论依据
多个纯策略纳什均衡的有限次重复博弈
关注点：原博弈的纳什均衡没有达到帕累托效率，是否存在通过合作进一步提高效率的潜在可能性及其在有限次重复博弈中能不能实现合作和提高效率的问题。
1. 三价博弈的重复博弈
博弈模型：
设一市场有两个生产同质产品的厂商，他们对产品
均衡策略（组合）不管是静态博弈还是动态博弈均衡没有强调策略的次序问题。
如囚徒困境博弈的均衡策略是博弈双方均选择坦白；或如甲
乙开矿法律保障不足的博弈。
3.颤抖手均衡中偶然性犯错及其概率到底如何理解？
颤抖手均衡是在多个纳什均衡中寻找，其偶然性犯错误的概
率恰为多个纳什均衡的混合策略纳什均衡中不同博弈方选择不同策略的概率。
三、重复博弈的分类
1. 有限次重复博弈基本博弈进行有限次重复 2. 无限次重复博弈
如果某个重复博弈没有可以预见的结束时间，各博弈方主
观上认为博弈会不断进行下去，即可视为无限次重复博弈。 3. 随机结束的重复博弈重复博弈的次数是有限的，但重复的次数或博弈结束的时间是不确定的。
四、策略、子博弈和均衡路径
子博弈完美纳什均衡的实现原理
1. 首先采取试探策略，一旦发现对方不合作则也用不合作相报复的策略（触发策略）； 2. 一旦对方合作，则除最后一次重复采用原博弈的纳什均衡外，其余都采用效率最高的策略。
触发策略是重复博弈中实现合作和提高均衡效率的关键机制。当重复次数较多时，平均得益接近一次性博弈中最高效率的得益。
长期动态博弈，更能反映问题的实质，这正是研究重复博弈的
根本理由。
二、重复博弈的基本概念
给定一个基本博弈 G（可以是静态博弈，也可
以是动态博弈），重复进行 T 次 G，并且在每次重复 G 之前各博弈方都能观察到以前博弈的结果，这样的博弈过程称为“G 的 T 次重复博弈”，记为 G(T)。而 G 则称为 G(T)的“原博弈”。G(T) 中的每次重复称为 G(T) 的一个“阶段”。
的定价同有高、中、低三种可能。
设高价时市场总利润为10个单位，中价时市场总利
润为6个单位，低价时市场总利润为2个单位。再假设两厂商同时决定价格，价格相等时价格低者独享利润，价格相等时双方平分利润。
三价博弈
H
厂商2
M L
厂商 1
几个问题：
H M L
5，5
0，6
0，2
6，0
2，0
3，3
2，0
0，2
1，1
1. 该博弈的纳什均衡是什么？ 2. 是否存在帕累托上策或风险上策均衡？ 3. 一次性博弈能否实现效率最高？ 4. 两次性重复博弈又是否可以实现效率最高？
两次重复博弈实现效率最高的路径
策略组合：博弈方1：第一次选择H；如第一次结果为（H，H），则第二次选择M，如第一次结果为任何其他策略组合，则第二次选L。
3. 重复博弈的均衡路径
阶段1 原博弈阶段2 原博弈阶段3 原博弈
分析重复博弈就是要在这些路径中找出具有稳定性的均衡路径，并分析它们的效率意义。
五、重复博弈的得益
得益是任何博弈中博弈方策略选择的惟一依据。重复博弈的得益有阶段得益和总体得益之分，博弈方到底根据哪个得益进行策略选择是重复博弈的重要问题。
博弈方的得益可能并没多大影响，但是若重复次数较多，
时间就不得不考虑。因心理作用和资金有时间价值，不同时间获得的单位
利益对人们的价值是有差别的，忽略这一点就不能得出符
合实际的分析结论。其解决方法：引进将后一阶段得益折算成当前得益的贴现系数。
1 1
阶段 1 原博弈
阶段 2 原博弈
阶段 T 原博弈
的困境式博弈及其在有限次重复博弈中能不能实现合作和提高效率的问题。
1. 有限次重复囚徒的困境博弈
囚徒的困境博弈囚徒 1 坦白不坦白
囚徒 2
坦白
-5，-5 -8，0
不坦白
0，-8 -1，-1
阶段 1 囚徒博弈
阶段 2 囚徒博弈
逆推归纳法
第 2 阶段
（-5，-5）
囚徒的-13，-5 不坦白 -5，-13 -6，-6
三价博弈
H
厂商2
M L
厂商 1
H M L
5，5 6，0 2，0
0，6 3，3 2，0
0，2 0，2 1，1
三价博弈
H
厂商2
M
等价博弈
L
t 1 t 1
将无限次重复博弈与随机结束的重复博弈统一起来
有限次重复博弈
• 两人零和博弈的有限次重复博弈 • 惟一纯策略纳什均衡的有限次重复博弈 • 多个纯策略纳什均衡的有限次重复博弈
• 有限次重复博弈的民间定理
两人零和博弈的有限次重复博弈
1. 重复零和博弈不会创造出新的利益； 2. 博弈方之间不会存在合作的可能性； 3. 惟一的子博弈完美纳什均衡是所有博弈方都始终采用原博弈的混合策略纳什均衡策略。阶段 1 猜硬币阶段 2 猜硬币阶段 T 猜硬币
博弈方2：第一次选择H；如第一次结果为（H，H），
则第二次选择M，如第一次结果为任何其他策略组合，则第二次选L。子博弈完美纳什均衡路径：第一阶段（H,H），第二阶段（M,M）。
子博弈完美纳什均衡路径：第一阶段（H,H），第二阶段（M,M）。
理由解释：
第二阶段（M，M）是一个原博弈的纳什均衡，没有哪一方愿意
而颤抖手均衡是一种偶然性的犯错误。如银行取钱急用与丢钱诈骗。
• 风险上策均衡
1. 风险上策均衡的识别标准是什么？
如果所有博弈方在预计其他博弈方采用多种纳什均衡的策略的概率相同时，都偏爱其中一个纳什均衡，则该纳什均衡即为风险上策均衡。
2.有些风险上策均衡跑到多重纳什均衡之外是怎么回事？
风险态度是博弈方在决策时人为加入，其动机是排除风险对其得益的负效应，只要能够排除风险的负效应的决策即为博弈方的最优策略。其关键问题就在于博弈双方的策略选择是否相同，如果策略选择相同，则风险上策均衡在多重纳什均衡之内；而如果双方的策略选择不同，则跑到多重纳什均衡之外也是合理之事。
all 2 T t 1 t 1 t 1
all 1
2 T
all 1 2 3 T t
惟一纯策略纳什均衡的有限次重复博弈
与无纯策略纳什均衡的零和博弈和严格竞争博弈的有限次重复博弈相比，惟一纯策略纳什均衡的有限次重复博弈之中，博弈方之间的利益关系不再是始终对立的，而是有很大一致性甚至完全一致。关注点：原博弈惟一的纳什均衡没有达到帕累托效
率，存在通过合作进一步提高效率的潜在可能性的囚徒
博弈决策次序必须有先有后。
第四章重复博弈
基本博弈重复进行构成的博弈过程
例如：石头剪刀布博弈
虽然重复博弈形式上是基本博弈的重复进行，但博弈方的行为和博弈结果却不一定是基本博弈的简单重复。博弈方对于博弈会重复进行的意识使得他们对
利益的判断发生变化，进而在重复博弈的不同阶段
的行为选择发生变化。不能把重复博弈当作基本博弈的简单叠加，必须把整个重复博弈过程作为整体进行研究。
第 1 阶段
囚徒 1
坦白不坦白
阶段 1
阶段 2
阶段 T
囚徒博弈
囚徒博弈
囚徒困境
（-5，-5）
（-5，-5）
（-5，-5）
定理：设原博弈 G 有惟一的纯策略纳什均衡，则对任意正整数 T ，重复博弈 G(T) 有惟一的子博弈完美纳什纳什，即各博弈方每个阶段都采用 G 的纳什均衡策略。各博弈在 G(T) 中的总得益为在 G 中得益的 T 倍，平均得益等于原博弈 G 中的得益。
一、为什么要研究重复博弈
现实生活中除了短期一次性的合作或竞争关系之外，还存在许多长期反复的合作和竞争关系。长期关系中人们在考虑当前利益的同时需要兼顾未来利益，其行为的选择和博弈更复杂。
某些长期的合作或竞争关系并不像动态博弈那样，前一阶
段与后一阶段环环相扣，而是各个阶段之间有很强的独立性，各个阶段有独立的选择和利益，而且后一阶段的选择的内容和利益形式上并不受前面阶段影响。把上述社会经济活动中的关系理解成重复博弈，比复杂的
上节课遗留问题的解释
1. 颤抖手均衡偶然性犯错的概率到底是怎样回事？ 2. 顺推归纳法
是策略的选择还是均衡的比较？
3. 风险上策均衡该均衡到底是不是纳什均衡？ 4. 得益矩阵与扩展形两者在分析问题时到底能不能转化？
• 颤抖手均衡的偶然性犯错概率
1. 什么是（纳什）均衡？ “策略最优，得益最大。” 2.均衡中博弈方的策略有没有选择次序的差异？
3. 风险上策均衡到底是不是纳什均衡？
可能是，可能不是。
• 得益矩阵与扩展形
1. 得益矩阵与扩展形能否相互转化？

4第四章：重复博弈

第四章重复博弈习题讲解

博弈论(重复博弈)

第四章 重复博弈

4经济博弈论-重复博弈

第四章 重复博弈

博弈论课件4重复博弈

博弈论以及应用之4重复博弈

@第4章 重复博弈

第四章重复博弈

第四章重复博弈

@第4章重复博弈