第四章重复博弈习题讲解
合集下载
4第四章:重复博弈

颤抖手均衡
U
博弈方2 L
10,0
R
6,2
博弈方1
D
10,1
2,0
• 顺推归纳法
1. 顺推归纳法——分析方法,其结果到底是策略还是均衡?
以退为进,迂回争取最大利益。以策略选择为依据,整体形成一 条均衡路径。
2.顺推归纳法与颤抖手均衡不要混为一谈
顺推归纳法的基本前提是博弈方有意识的犯错误以争取更大得益,
1. 重复博弈的策略 在每个阶段(即每次重复),针对每种情况(前期阶段的 结果)如何行为的计划。
2. 重复博弈的子博弈
重复博弈是动态博弈,故其同动态博弈一样既有阶段也有 子博弈。
重复博弈的子博弈是从某个阶段(不包括第一阶段)开始,
包括以后所有阶段的重复博弈部分。 重复博弈的子博弈要么仍然是重复博弈,要么就是原博弈。
蜈蚣博弈
逆推归纳法:博弈的效率越来越低 理论依据
多个纯策略纳什均衡的有限次重复博弈
关注点:原博弈的纳什均衡没有达到帕累托效率,是 否存在通过合作进一步提高效率的潜在可能性及其在有限 次重复博弈中能不能实现合作和提高效率的问题。
1. 三价博弈的重复博弈
博弈模型:
设一市场有两个生产同质产品的厂商,他们对产品
均衡策略(组合)不管是静态博弈还是动态博弈均衡没有强 调策略的次序问题。
如囚徒困境博弈的均衡策略是博弈双方均选择坦白;或如甲
乙开矿法律保障不足的博弈。
3.颤抖手均衡中偶然性犯错及其概率到底如何理解?
颤抖手均衡是在多个纳什均衡中寻找,其偶然性犯错误的概
率恰为多个纳什均衡的混合策略纳什均衡中不同博弈方选择不同策 略的概率。
三、重复博弈的分类
1. 有限次重复博弈 基本博弈进行有限次重复 2. 无限次重复博弈
[经济学]4 重复博弈--博弈论
![[经济学]4 重复博弈--博弈论](https://img.taocdn.com/s3/m/e21b294bb4daa58da0114a99.png)
策略、子博弈和均衡路径
得益
总得益 / 平均得益
贴现系数
T
1 223 T 1T
t 1 t
t 1
12 23 t1t
h
t1
4
4.2 有限次重复博弈
4.2.1 有限次重复的囚徒困境博弈 4.2.2 连锁店悖论 4.2.3 有限次重复猜硬币博弈 4.2.4 ★有限次两企业、两差别市场重复博弈 4.2.5 民间定理
Med Q 9,4
12,10 10, 18
Low Q 3, 6 20, 8
18, 15
Saudi Arabia
h
16
重复博弈
合理的猜想:
石油生产和出口年年持续进行,OPEC的制约和协调按 理说总是有一定作用的。各国不可能对合作的巨大好处 无动于衷,再加上我们要考虑到成员国中最大的产油国, 如沙特阿拉伯在其中会起一定的积极作用,带头克制自 己的行为。因此OPEC这个是否突破限额的重复博弈的结 果理应比完全没有制约独立决定产量的结果要好得多。
第一阶段 第二阶段
(A , B)
(B , A)
(B , A)
(A , B)
(A , B)
(A , B)
(B , A)
(B , A)
混合策略
混合策略
(A , B)
(B , A) 混合策略 混合策略
混合策略 混合策略
(B , A) (A , B)
平均(期望)得益
企业1
企业2
2.5
2.5
2.5
2.5
1
4
4
不少非OPEC成员国加入市场,使得OPEC的限产作用失 效,白白丧失许多市场份额和利润。
OPEC成员之间地位不平衡,部分成员觉得限额不公平从 而相继突破限额。
第四讲重复博弈(下)详解

5,5 6,0 2,0
L
0,2 0,2 1,1
存在两个纯策略纳什均衡( M,M ) 和 (L,L) ( 还 有 混 合 策 略 ) 。 但 显 然 ( H,H ) 帕 雷 托 效 率 最 高 。 是 否 重 复 (两次)进行能够实现使效率改善?
触发策略(trigger strategy)
一方的机会主义行为将触发其他参与人策略 中的惩罚机制发生。我们把这种包含着奖励和惩 罚机制的策略称为触发策略。正是由于害怕“触 发”其他参与人的惩罚机制,所以不敢利用机会 使自己在该阶段利益最大化,从而使该阶段的 “合作”出现。从这个意义上看,触发策略是 “温柔的”。
表3 囚徒困境博弈
乙
招
不招 -5,-13 -6,-6
招
甲 不招
-10,-10 -13,0
Proposition If the stage game G has a unique Nash equilibrium then, for any finite T,the repeated game G(T) has a unique subgameperfect outcome:the Nash equilibrium of G is played in every stage.
一、无限次重复的囚徒困境
• 以寡头削价竞争为例 • 基本博弈的结果是(L,L)。 寡头1 H L 寡 H 4, 4 0, 5 头 5, 0 1, 1 L 2
引入贴现因子δ, 若某个参与人在某一路 径的各个阶段的支付分别为: π1 、 π2 、……, 则该参与人在该路径的“总支付” π为 无限序列 π1 、 π2 、……的现值之和,即: 0≤δ≤1 δ? π = π1+ δ π2 + δ2 π3 + …… ∞ 当δ 0,行动短视化,时间 = ∑ δt-1 πt t =1 视野往往局限于本期、近期; 当δ 1,参与人有远见,他充分意识到他 现期的行动决策将通过其他参与人的反应影响到 他未来的收益,因而试图跨期协调其行动决策。
L
0,2 0,2 1,1
存在两个纯策略纳什均衡( M,M ) 和 (L,L) ( 还 有 混 合 策 略 ) 。 但 显 然 ( H,H ) 帕 雷 托 效 率 最 高 。 是 否 重 复 (两次)进行能够实现使效率改善?
触发策略(trigger strategy)
一方的机会主义行为将触发其他参与人策略 中的惩罚机制发生。我们把这种包含着奖励和惩 罚机制的策略称为触发策略。正是由于害怕“触 发”其他参与人的惩罚机制,所以不敢利用机会 使自己在该阶段利益最大化,从而使该阶段的 “合作”出现。从这个意义上看,触发策略是 “温柔的”。
表3 囚徒困境博弈
乙
招
不招 -5,-13 -6,-6
招
甲 不招
-10,-10 -13,0
Proposition If the stage game G has a unique Nash equilibrium then, for any finite T,the repeated game G(T) has a unique subgameperfect outcome:the Nash equilibrium of G is played in every stage.
一、无限次重复的囚徒困境
• 以寡头削价竞争为例 • 基本博弈的结果是(L,L)。 寡头1 H L 寡 H 4, 4 0, 5 头 5, 0 1, 1 L 2
引入贴现因子δ, 若某个参与人在某一路 径的各个阶段的支付分别为: π1 、 π2 、……, 则该参与人在该路径的“总支付” π为 无限序列 π1 、 π2 、……的现值之和,即: 0≤δ≤1 δ? π = π1+ δ π2 + δ2 π3 + …… ∞ 当δ 0,行动短视化,时间 = ∑ δt-1 πt t =1 视野往往局限于本期、近期; 当δ 1,参与人有远见,他充分意识到他 现期的行动决策将通过其他参与人的反应影响到 他未来的收益,因而试图跨期协调其行动决策。
重复博弈的详细介绍

• 一报还一报战略的胜利对人类和其他生物 的合作行为的形成具有深刻地含义。
• 爱克斯罗德在《合作进化》一书中指出, 一报还一报战略能导致社会各个领域的合 作,包括在最无指望的环境中的合作。
• 典型的例子就是越战中自发产生的“自己 活,也让他人活”的原则:只要对方不开 枪伤人,我也不开枪。
一报还一报—自然界的例子
• 猜想:杀鸡儆猴的效应
单阶段博弈矩阵
支付 在位者
进入者
进入
默许 3,3
斗争 -1,0
不进入
1,10
1,10
纳什均衡为:在位者在每一个市场选择默许,进入者在 每一个市场选择进入。
单阶段扩展式博弈
k
I A
F
C
O
1,10
-1,0
3,3
阶段博弈的子博弈精炼纳什均衡为:在位者在每一个市 场选择默许,进入者在每一个市场选择进入。
• 该博弈存在唯一的Nash均衡,即(U,L)。
• 同时注意到,该博弈还存在一个高效均衡(D, R),高效均衡对应着一种合作行为。
• 为什么高效的均衡不是纳什均衡?如何保证 这一高效均衡能够实现?
两次重复博弈的博弈树
假设将上述博弈重复两次,那么第二次博弈开始 时,第一次博弈的结果可视为已知。
1
2 1
平均收益
给定贴现率 ,无限的收益序列1,2,3
的平均收益为
(1 ) t1t
t 1
阶段博弈收益 相等时的总收益
所以
故
2 t1t t 1
1
t1 t
t 1
(1 ) t1t t 1
重复博 弈总收益
无限次重复博弈的无名氏定理:
• 令G为一个n人阶段博弈,令(e1,e2, ,en ) 为G的
博弈论课件4重复博弈

5 1 1 2 5
如果博弈方2采用H,总得益现值为:
1
V 4 V
因此当 1/ 4时,此触发策略纳什均衡策略。
4.3.2 惟一纯策略纳什均衡的无限次重复博弈
无限次重复博弈民间定理(弗里德曼,1971)
设G是一个完全信息的静态博弈,用(e1, , en )记G的纳什均衡得益,
用(x , 1
重复囚徒困境悖论和连锁 店悖论
☻理论和实践的直觉矛盾,现实 中寡头之间的价格战问题并 不十分普遍,重复次数较大 的实验研究的结果(重复200 次的囚徒困境)
☻泽尔腾(1978),“连锁店悖论” (导论中的先来后到博弈), 实际中对开头几个市场的进 入者不计代价的打击
☻问题的症结与蜈蚣博弈类似, 在于在较多阶段的动态博弈 中逆推归纳法的适用性T t1t 1t1 2 23
t1
t 1
t
4.1.2 基本概念
平均得益:如果一常数作为重复博弈(有限次重复博弈或
无限次重复博弈)各个阶段的得益,能产生与得益序列
1, 2,相同的现在值,则称为1, 2,的平均得益
无限次重复博弈时
2 (1 )
1 2 23
4.2.3 多个纯策略纳什均衡的有限次重复博弈
三价博弈的两次重复博弈
+1
厂H 商M
1L
H
5,5 6,0 2,0
厂商2
M 0,6 3,3 2,0
L
0,2 0,2 1,1
+3
厂H 商M 1L
H
8,8 7,1 3,1
厂商2 M
1,7 4,4 3,1
L
1,3 1,3 2,2
三价博弈
两次重复三价博弈的等价博弈
有限次重复博弈民间定理
第四讲重复博弈详解

1
重复博弈和信誉问题
如果博弈不是一次的,而是重复进行的,参与 人过去行动的历史是可以观察到的,参与人就 可以将自己的选择依赖于其他人之前的行动, 因而有了更多的战略可以选择,均衡结果可能 与一次博弈大不相同。 重复博弈理论的最大贡献是对人们之间的合作 行为提供了理性解释;在囚徒困境中,一次博 弈的唯一均衡是不合作(即坦白)。但如果博 弈无限重复,合作就可能出现。
7
市场秩序的信誉基础
经济发展史表明,在本来不认识的人之间建立相互之 间的信任关系是交易范围扩大和经济发展的关键, 而 制度作为博弈的规则 ,是建立和维持人们之间信任的 关键(Milgrom、North和Weingast,1990)。如果 制度安排使得当事人履行契约比不履行契约更有利 可图,使得人们有积极性为了交易带来的长远利益而 抵挡短期的机会主义行为的诱惑,人们之间的信任就 可以建立起来.正是从这个意义上,我们说信任是一个 制度问题.
9
市场秩序的信誉基础
但新制度经济学证明,法律制度的作用被大大地 夸大了(Greif , 1996) , 法律制度并不是合同得 以执行的唯一制度安排。即使不借助于国家的 权威,非正式的合约也可以支持交易的进行。经 验研究表明,即使在象美国这样法律制度最健全 的国家,大部分的交易活动也是通过非正式的合 约安排进行的, 商业纠纷的解决常常并不借助法 律的裁决(Macaulay , 1985 ; Macneil , 1985) 。
张维迎
2002年,他关于中国 企业的核心竞争力、中国 企业如何做大、如何重建 社会信任和企业信誉的阐 述,引起人们对这三大问 题的空前关注和讨论,当 选为“CCTV2002年中国经 济年度人物”。
5
市场秩序的信誉基础:
重复博弈和信誉问题
如果博弈不是一次的,而是重复进行的,参与 人过去行动的历史是可以观察到的,参与人就 可以将自己的选择依赖于其他人之前的行动, 因而有了更多的战略可以选择,均衡结果可能 与一次博弈大不相同。 重复博弈理论的最大贡献是对人们之间的合作 行为提供了理性解释;在囚徒困境中,一次博 弈的唯一均衡是不合作(即坦白)。但如果博 弈无限重复,合作就可能出现。
7
市场秩序的信誉基础
经济发展史表明,在本来不认识的人之间建立相互之 间的信任关系是交易范围扩大和经济发展的关键, 而 制度作为博弈的规则 ,是建立和维持人们之间信任的 关键(Milgrom、North和Weingast,1990)。如果 制度安排使得当事人履行契约比不履行契约更有利 可图,使得人们有积极性为了交易带来的长远利益而 抵挡短期的机会主义行为的诱惑,人们之间的信任就 可以建立起来.正是从这个意义上,我们说信任是一个 制度问题.
9
市场秩序的信誉基础
但新制度经济学证明,法律制度的作用被大大地 夸大了(Greif , 1996) , 法律制度并不是合同得 以执行的唯一制度安排。即使不借助于国家的 权威,非正式的合约也可以支持交易的进行。经 验研究表明,即使在象美国这样法律制度最健全 的国家,大部分的交易活动也是通过非正式的合 约安排进行的, 商业纠纷的解决常常并不借助法 律的裁决(Macaulay , 1985 ; Macneil , 1985) 。
张维迎
2002年,他关于中国 企业的核心竞争力、中国 企业如何做大、如何重建 社会信任和企业信誉的阐 述,引起人们对这三大问 题的空前关注和讨论,当 选为“CCTV2002年中国经 济年度人物”。
5
市场秩序的信誉基础:
博弈论以及应用之4重复博弈

重复博弈分类
无限次重复博弈
给定一个基本博弈G重复无限多次,记为G(∞)。 重复的次数是有限的,但是具体结束时间是不确定的,每一 阶段都有可能结果博弈。
随机结束重复博弈
重复博弈特点
各阶段相互独立,前阶段博弈不会改变后阶段博弈的结构 所有局中人都能看到博弈历史 参与人的收益等于各阶段收益的贴现值之和或加权平均
22
4.2 有限次重复博弈
两市场博弈的重复博弈
重复三次
触发机制
厂商1:第一阶段,选择A;如果第一阶段结果为(A, A),那么 第二阶段选择A;如果第一阶段结果为(A, B),那么第二阶段选 择B;第三阶段无条件选择B。 厂商2:第一阶段,选择A;第二阶段无条件选择B;如果第一 阶段结果为(A, A),那么第三阶段选择A;如果第一阶段结果为 (A, B),那么第三阶段选择B。 子博弈精炼纳什均衡为(A ,A), (A, B), (B, A),双方平均收益分 别为(2.67, 2.67),较重复两次有提高,验证了猜想!
T M
L 3, 1 2, 1 1, 2
C 0, 0 1, 2 1, 1
R 5, 0 3, 1 4, 4
B
2013-8-4104.2 有 Nhomakorabea次重复博弈
多重纳什均衡博弈的有限次重复博弈
阶段博弈的纳什均衡
用画线法容易求得纯战略纳什均衡为(3,1)和(1,2)。 根据奇数定理,很可能还有一个混合战略纳什均衡。求解可 得混合战略纳什均衡为((1/3, 1/2, 1/6), (1/5, 3/5, 1/5)),其中局 中人1的收益为8/5,局中人2的收益为7/6。
@第4章 重复博弈

*
*
*
最后这个不等式正是存在有效工资率,工作激励有效的基 131 本条件。
三 、 无 限 次 重 复 博 弈
(四)效率工资博弈
综上所述,在满足 y w 0和w w e 1 e (1 p)
* * 0
的条件下,双方的触发策略构成一个纳什均衡。而上述两式 实际上意味着 1 y e w e (1 p)
131
(一)两人零和博弈的无限次重复博弈
两人零和博弈无限次重复与有 限次重复博弈的结果并不会有什 么不同,所有阶段都不可能发生 合作,博弈方会一直重复原博 弈的混合策略纳什均衡。
三 、 无 限 次 重 复 博 弈
131
(二)唯一纯策略纳什均衡无限次重复博弈 两种情况
三 、 无 限 次 重 复 博 弈
*
e
s
0
0
努力是工人的最佳选择。
反过来,设工人已采用上述触发策略。若厂商给的工资率满 足上式条件,并且威胁一旦产量降低就解雇工人,则各阶段 的得益为 y w,无限次重复博弈得益现值为 ( y w ) (1 ) 。 * 若不愿给 w ,则解雇工人,以后得益为0。因此只要y w 0 厂商选择前述触发策略就是最佳反应。
131
(二)唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
H2
H1
L2
L1
4,4 5,0
0,5 1,1
该博弈一次性博弈均衡是都采用低价,是囚徒困境型博弈
三 、 无 限 次 重 复 博 弈
131
(二)唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
【了解】无限次重复博弈的“民间定理”(P134)
*
*
最后这个不等式正是存在有效工资率,工作激励有效的基 131 本条件。
三 、 无 限 次 重 复 博 弈
(四)效率工资博弈
综上所述,在满足 y w 0和w w e 1 e (1 p)
* * 0
的条件下,双方的触发策略构成一个纳什均衡。而上述两式 实际上意味着 1 y e w e (1 p)
131
(一)两人零和博弈的无限次重复博弈
两人零和博弈无限次重复与有 限次重复博弈的结果并不会有什 么不同,所有阶段都不可能发生 合作,博弈方会一直重复原博 弈的混合策略纳什均衡。
三 、 无 限 次 重 复 博 弈
131
(二)唯一纯策略纳什均衡无限次重复博弈 两种情况
三 、 无 限 次 重 复 博 弈
*
e
s
0
0
努力是工人的最佳选择。
反过来,设工人已采用上述触发策略。若厂商给的工资率满 足上式条件,并且威胁一旦产量降低就解雇工人,则各阶段 的得益为 y w,无限次重复博弈得益现值为 ( y w ) (1 ) 。 * 若不愿给 w ,则解雇工人,以后得益为0。因此只要y w 0 厂商选择前述触发策略就是最佳反应。
131
(二)唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
H2
H1
L2
L1
4,4 5,0
0,5 1,1
该博弈一次性博弈均衡是都采用低价,是囚徒困境型博弈
三 、 无 限 次 重 复 博 弈
131
(二)唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
【了解】无限次重复博弈的“民间定理”(P134)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• (2)证明:两次重复的均衡路径是(下,右)到(上,左);非均 衡路径为(*,*)到(中,中) • 因为第二阶段本身是原博弈的纳什均衡,因此不会有哪一方偏 离。 • 第一阶段的策略组合虽不是原博弈的纳什均衡,博弈方1单独 偏离会多得到1个单位的好处,但会得到第二阶段博弈方2的报 复,即第二阶段损失2个单位的得益。因此,在第二阶段利益 的制约下(,因此该策略 组合是一个子博弈完美纳什均衡。
• (3)将(下,左)的得益改为(1,5)情况会发生质的 变化。因为此时第一阶段两博弈方都有偏离(下,右)的 动机,而上述博弈又不存在同一个阶段中同时对两博弈方 惩罚或奖励的纳什均衡,因此重复两次时不可能存在子博 弈完美纳什均衡部分实现(4,4)得益。 • 至少在部分阶段实现得益(4,4)的条件是重复博弈的 次数达到三次或以上,或者得益进一步改变到(下,右) 是原博弈的纳什均衡。如设计触发策略: • 博弈方1:第一阶段选“下“,出现结果(下,右),则 第二阶段继续选”上“,第三阶段选”中“。 • 如果第一阶段没有出现,(下,右),则第二、第三阶段 选混合策略均衡。 • 博弈方2:第一阶段选“右“,出现结果(下,右)则第 二阶段选”左“,第三阶段选”中“,否则第二、三阶段 选择混合策略的均衡。 • 均衡路径为(下,右)(上,左)(中,中)
• 答:(1)上述静态博弈有两个纯策略纳什均衡(上,左)和 (中,中)。由于策略组合(下,右)实现的得益(4,4)对 博弈方2来说已是最理想的,因此博弈方2不会有偏离的动机, 只有博弈方1可能有偏离动机,因此可设计如下触发策略。
• 博弈方1:第一阶段采取下;如果第一阶段的结果是(下,右) 则采取上,否则采取中。 • 博弈方2:第一阶段采取右;如果第一阶段的结果是(下,右) 第二阶段采取左,否则采取中。
• (3)将(下,左)的得益改为(1,5)情况会发生质的 变化。因为此时第一阶段两博弈方都有偏离(下,右)的 动机,而上述博弈又不存在同一个阶段中同时对两博弈方 惩罚或奖励的纳什均衡,因此重复两次时不可能存在子博 弈完美纳什均衡部分实现(4,4)得益。 • 至少在部分阶段实现得益(4,4)的条件是重复博弈的 次数达到三次或以上,或者得益进一步改变到(下,右) 是原博弈的纳什均衡。如设计触发策略: • 博弈方1:第一阶段选“下“,出现结果(下,右),则 第二阶段继续选”上“,第三阶段选”中“。 • 如果第一阶段没有出现,(下,右),则第二、第三阶段 选混合策略均衡。 • 博弈方2:第一阶段选“右“,出现结果(下,右)则第 二阶段选”左“,第三阶段选”中“,否则第二、三阶段 选择混合策略的均衡。 • 均衡路径为(下,右)(上,左)(中,中)
• 答:(1)上述静态博弈有两个纯策略纳什均衡(上,左)和 (中,中)。由于策略组合(下,右)实现的得益(4,4)对 博弈方2来说已是最理想的,因此博弈方2不会有偏离的动机, 只有博弈方1可能有偏离动机,因此可设计如下触发策略。
• 博弈方1:第一阶段采取下;如果第一阶段的结果是(下,右) 则采取上,否则采取中。 • 博弈方2:第一阶段采取右;如果第一阶段的结果是(下,右) 第二阶段采取左,否则采取中。