第四讲重复博弈(下)详解

合集下载

[经济学]4 重复博弈--博弈论

策略、子博弈和均衡路径
得益
总得益 / 平均得益
贴现系数
T
1 223 T 1T
t 1 t
t 1
12 23 t1t
h
t1
4
4.2 有限次重复博弈
4.2.1 有限次重复的囚徒困境博弈 4.2.2 连锁店悖论 4.2.3 有限次重复猜硬币博弈 4.2.4 ★有限次两企业、两差别市场重复博弈 4.2.5 民间定理
Med Q 9,4
12,10 10, 18
Low Q 3, 6 20, 8
18, 15
Saudi Arabia
h
16
重复博弈
合理的猜想：
石油生产和出口年年持续进行，OPEC的制约和协调按理说总是有一定作用的。各国不可能对合作的巨大好处无动于衷，再加上我们要考虑到成员国中最大的产油国，如沙特阿拉伯在其中会起一定的积极作用，带头克制自己的行为。因此OPEC这个是否突破限额的重复博弈的结果理应比完全没有制约独立决定产量的结果要好得多。
第一阶段第二阶段
(A , B)
(B , A)
(B , A)
(A , B)
(A , B)
(A , B)
(B , A)
(B , A)
混合策略
混合策略
(A , B)
(B , A) 混合策略混合策略
混合策略混合策略
(B , A) (A , B)
平均（期望）得益
企业1
企业2
2.5
2.5
2.5
2.5
1
4
4
不少非OPEC成员国加入市场，使得OPEC的限产作用失效，白白丧失许多市场份额和利润。
OPEC成员之间地位不平衡，部分成员觉得限额不公平从而相继突破限额。

博弈论(重复博弈)

第四章重复博弈（p129~）
§4.1 基本概念
一、什么是重复博弈二、重复博弈的分类三、重复博弈的策略四、重复博弈的收益
§4.2 有限次重复博弈
一、2人零和博弈的重复二、有唯一纯策略NE的有限次重复博弈三、连锁店悖论（Chainstore Paradox)
H
L
4,4
5,0
0,5
1,1
ห้องสมุดไป่ตู้
可以证明，当贴现因子较大时，上述策略组合构成了SPNE:
1)TS 是 NE 2)这个NE是SPNE
2.无限次重复博弈的民间定理（p133,定理5.1)
一个n人有限博弈G中，设（x1, x2,… xn)是G的任意可实现收益，那么无限次重复博弈G(∞, δ) 中必存在一个 SPNE，各局中人的平均收益即为（x1, x2,… xn)，只要满足如下条件： 1) 时间偏好率 r =0 或是充分小的正数； 2)博弈在任意阶段结束的概率为0或是充分小的正数； 3)支付组合的元素是n维的，且严格帕累托优于G的最小最大收益组合。
若干无限次充分博弈的例
1.“单边”的囚徒困境博弈（p139）
抵赖抵赖坦白 5，5
10，-5
坦白
-5，10
购买高质低质 5，5
10，-5
抵制 0，0 0，0
0，0
2.产品质量博弈(p143)
均衡成立应满足的条件：激励相容竞争市场出清
3.消费者转换成本博弈（p146）
马尔可夫过程寻求马尔可夫策略（Markov st.)
合作收益集
例
B1 (开发A） B2 (开发B） a1 (开发A） 3，3 a2 (开发B） 4，1 1，4 0，0

重复博弈

在有限次重复博弈中，如果原博弈存在唯一纯策略纳什均衡组合，则重复博弈的唯一子博弈完美纳什均衡解为各博弈方在每阶段都采取的原博弈纳什均衡策略由于完全理性的博弈方具有对“共同知识” 的分析推理能力，因此在从最后阶段开始的逆推过程中，仍然无法摆脱囚徒困境由于在这样的双方策略下，均衡路径中的每个阶段都不存在不可信的威胁或许诺，因此这种均衡是子博弈完美纳什均衡
重复博弈
定义：给定一个博弈G（静态或动态），若重复进行T次G，并且在每次重复之前各博弈方都能观察到以前博弈的结果，则称G有一个“T次重复博弈”，记为G(T) 其中，G成为G(T)的原博弈。每次重复称为 G(T)的一个阶段重复博弈是一种特殊的动态博弈与静态和动态都有关系
本章主要结论由于参与者在重复博弈中具有了长期利益可通过在后阶段中的报复策略使威胁变得可信从而可能摆脱静态博弈中“追求自身利益最大化”导致的囚徒困境，实现长期合作
但是在后续阶段中只能得到古诺产量下的利润4，总收益： 5.0625＋4(δ ＋ δ*δ ＋…)＝ 5.0625＋4 δ /(1- δ) (2) 如果得益满足（1）大于（2），触发策略下保持合作的垄断产量将构成子博弈完美纳什均衡这要求：δ≥9/17
一般结论：在触发策略1中，如果满足条件 δ≥9/17，博弈方可以通过古诺产量作为威胁，迫使对方合作达成帕累托最优的垄断产量如果允许其它利润较低的可实现得益，相应的贴现系数要求是否可以降低（即博弈方是否可以不那么看重未来长期利益）？触发策略2：第一阶段生产q*，如果前(t－ 1)阶段结局都是(q*,q*)，那么继续生产q* ，否则采取纳什均衡的斗争能起到一种威慑作用，使进入者不敢再进入下一个市场但在有限次重复博弈中，斗争并不是一个可信的威胁设前 19 个市场已被进入，进入者现在要进入第20个市场因为在最后阶段斗争已没有任何威慑意义，在位者的最优选择是默许，进入者将选择进入

第四章重复博弈详解

t 1
T
G（，）
1 2 2 3 t 1 t
t 复博弈（有限次重复博弈或无限次重复博弈）各个阶段的得益，能产生与得益序列
1， 2 ,相同的现在值，则称为 1， 2 ,的平均得益
4.1.1 为何研究重复博弈

经济中的长期关系
人们的预见性未来利益对当前行为的制约长期合同、回头客、长客和一次性买卖的区别有无确定的结束时间
4.1.2 基本概念

有限次重复博弈：给定一个基本博弈G（可以是静态博弈，也可以是动态博弈），重复进行T次G，并且在每次重复G之前各博弈方都能观察到以前博弈的结果，这样的博弈过程称为“G的T次重复博弈”，记为G(T)。而G 则称为G(T)的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶段”。

这种结论对于帮助我们加强对重复博弈意义的理解，帮助我们在重复博弈中更好地把握机会，设计和运用高效率的策略，建立相互的默契和信任，从而争取实现更好的博弈结果，都有相当重要的意义。
4.3 无限次重复博弈
4.3.1 两人零和博弈的无限次重复博弈
4.3.2 唯一纯策略纳什均衡博弈
的无限次重复博弈
4.3.3 无限次重复古诺模型
两次重复三价博弈的等价模型
触发策略：两博弈方先试探合作，一旦发现对方不合作则也用不合作报复。博弈方1：第一次选H；如第一次结果为(H,H)，则第二次选M，否则选L 博弈方2：同博弈方1
触发策略

在上述双方策略组合下,两次重复博弈的路径一定为第一阶段 (H,H)，第二阶段（M,M）这是一个子博弈完美纳什均衡路径。
两寡头削价竞争博弈
H L H 4，4 5，0 L 0，5 1，1

ch4 重复博弈

4.2.3多个纯策略纳什均衡的有限次重复博弈
一、三价博弈的重复博弈
厂商2 H 厂商 1 H M L 5，5 6，0 2，0 M 0，6 3，3 2，0 三价博弈 L 0，2 0，2 1，1 厂H 商M 1 L 厂商2 H 8，8 7，1 3，1 M 1，7 4，4 3，1 L 1，3 1，3 2，2
第四章
重复博弈
本章介绍基本博弈重复进行构成重复博弈。虽然形式上是基本博弈重复，但重复博弈中博弈方行为和博弈结果却不一定是基本博弈的简单重复，因为博弈方对于博弈会重复进行的意识，会使他们对利益的判断发生变化，从而使他们在重复博弈过程中的行为选择受到影响。这意味着不能把重复博弈当作基本博弈的简单叠加，必须把整个重复博弈过程作为整体进行研究。
4.2.2唯一纯策略纳什均衡博弈的有限次重复博弈
一、有限次重复的囚徒困境博弈

如果原博弈存在唯一的纯策略纳什均衡组合，则有限次重复博弈的唯一的均衡解即各博弈方在每阶段（即每次重复）中都采用原博弈的纳什均衡策略。由于在这样的双方策略下，均衡路径中的每个阶段都不存在不可信的威胁或许诺，因此这种均衡是子博弈完美纳什均衡。
4.2.2唯一纯策略纳什均衡博弈的有限次重复博弈
一、有限次重复的囚徒困境博弈
坦白坦白不坦白不坦白
－5，－5
－8， 0
0，
－8
－1，－1
图4－1 囚徒困境

求解思路：对于有限次重复囚徒困境博弈，根据动态博弈的逆推归纳法可以求解。
4.2.2唯一纯策略纳什均衡博弈的有限次重复博弈
一、有限次重复的囚徒困境博弈
两次重复三价博弈的等价模型
如果重复n次，结论相似。采用触发策略实现比较好的结果，子博弈完美纳什均衡路径为：除了最后一次外，每次都采用（H，H），最后一次采用（M，M）。当重复次数较多时，平均得益接近于一次性博弈中（H，H）的得益（5，5）。

博弈论课件4重复博弈

5 1 1 2 5
如果博弈方2采用H，总得益现值为：
1
V 4 V
因此当 1/ 4时，此触发策略纳什均衡策略。
4.3.2 惟一纯策略纳什均衡的无限次重复博弈
无限次重复博弈民间定理（弗里德曼，1971）
设G是一个完全信息的静态博弈，用(e1, , en )记G的纳什均衡得益，
用(x , 1
重复囚徒困境悖论和连锁店悖论
☻理论和实践的直觉矛盾，现实中寡头之间的价格战问题并不十分普遍，重复次数较大的实验研究的结果（重复200 次的囚徒困境）
☻泽尔腾(1978)，“连锁店悖论” （导论中的先来后到博弈），实际中对开头几个市场的进入者不计代价的打击
☻问题的症结与蜈蚣博弈类似，在于在较多阶段的动态博弈中逆推归纳法的适用性T t1t 1t1 2 23
t1
t 1
t
4.1.2 基本概念
平均得益：如果一常数作为重复博弈（有限次重复博弈或
无限次重复博弈）各个阶段的得益，能产生与得益序列
1， 2,相同的现在值，则称为1， 2,的平均得益
无限次重复博弈时
2 (1 )
1 2 23
4.2.3 多个纯策略纳什均衡的有限次重复博弈
三价博弈的两次重复博弈
+1
厂H 商M
1L
H
5，5 6，0 2，0
厂商2
M 0，6 3，3 2，0
L
0，2 0，2 1，1
+3
厂H 商M 1L
H
8，8 7，1 3，1
厂商2 M
1，7 4，4 3，1
L
1，3 1，3 2，2
三价博弈
两次重复三价博弈的等价博弈
有限次重复博弈民间定理

重复博弈的详细介绍

收益: (3,3) 权重: (1/ 3,1/ 3,1/ 3,0) [(4, 4),(5,0),(0,5),(1,1)]
平均收益
给定贴现率，无限的收1益，序2，列3
的平均收益为
(1 )
t1 t
t 1
阶段博弈收益相等时的总收益
2 t1t t 1
重复博弈总收益
所以故
也称触发战略；
以囚徒困境为例：开始选择抵赖，而且一直选择抵赖直到有一方选择了坦白，然后永远选择坦白；
这意味着：一旦哪个参与人选择了坦白，就触发了惩罚的扳机。
根据上述原则，可构造如下战略：
01 S1：第一阶段选择M1；如果第一阶段结果为(M1， M2)，则下一阶段选R1；否则选择L1。
1
竞赛的第一个回合交上来的14个程序中包含了各种复杂的战略。但使爱克斯罗德和其他人深为吃惊的是，竞赛的桂冠属于其中最简单的战略：一报还一报(Tit for Tat)。这是多伦多大学心理学家阿纳托 ·拉帕波特提交上来的战略。
2
一报还一报战略：它总是以合作开局，但从此以后就采取以其人之道还治其人之身的战略。也就是说，一报还一报的战略实行了胡萝卜加大棒的原则。
i
集合。若存在
G(, )
(x , x , , x ) 则存在贴现率，使无限重复博弈
可达到
12
。n
存在一个子博弈精炼Nash均衡，其平均收益
子博弈精炼Nash均衡的可行收益区间 (0,5) (1,1) (0,0) (4,4) (5,0)
无名氏定理的一个解释
在无限次重复博弈中，如果参与人具有足够的耐心（只要满足一定的条件），那么任何满足个人理性的可行收益向量都可以通过一个特定的

第四讲重复博弈详解

1
重复博弈和信誉问题

如果博弈不是一次的，而是重复进行的，参与人过去行动的历史是可以观察到的，参与人就可以将自己的选择依赖于其他人之前的行动，因而有了更多的战略可以选择，均衡结果可能与一次博弈大不相同。重复博弈理论的最大贡献是对人们之间的合作行为提供了理性解释；在囚徒困境中，一次博弈的唯一均衡是不合作（即坦白）。但如果博弈无限重复，合作就可能出现。
7
市场秩序的信誉基础

经济发展史表明,在本来不认识的人之间建立相互之间的信任关系是交易范围扩大和经济发展的关键, 而制度作为博弈的规则 ,是建立和维持人们之间信任的关键(Milgrom、North和Weingast,1990)。如果制度安排使得当事人履行契约比不履行契约更有利可图,使得人们有积极性为了交易带来的长远利益而抵挡短期的机会主义行为的诱惑,人们之间的信任就可以建立起来.正是从这个意义上,我们说信任是一个制度问题.
9
市场秩序的信誉基础

但新制度经济学证明,法律制度的作用被大大地夸大了(Greif , 1996) , 法律制度并不是合同得以执行的唯一制度安排。即使不借助于国家的权威,非正式的合约也可以支持交易的进行。经验研究表明,即使在象美国这样法律制度最健全的国家,大部分的交易活动也是通过非正式的合约安排进行的, 商业纠纷的解决常常并不借助法律的裁决(Macaulay , 1985 ; Macneil , 1985) 。
张维迎
2002年，他关于中国企业的核心竞争力、中国企业如何做大、如何重建社会信任和企业信誉的阐述，引起人们对这三大问题的空前关注和讨论，当选为“CCTV2002年中国经济年度人物”。
5
市场秩序的信誉基础:

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

5,5 6,0 2,0
L
0,2 0,2 1,1
存在两个纯策略纳什均衡（ M,M ）和 (L,L) （还有混合策略）。但显然（ H,H ）帕雷托效率最高。是否重复（两次）进行能够实现使效率改善？
触发策略（trigger strategy）
一方的机会主义行为将触发其他参与人策略中的惩罚机制发生。我们把这种包含着奖励和惩罚机制的策略称为触发策略。正是由于害怕“触发”其他参与人的惩罚机制，所以不敢利用机会使自己在该阶段利益最大化，从而使该阶段的 “合作”出现。从这个意义上看，触发策略是 “温柔的”。
表3 囚徒困境博弈
乙
招
不招 -5,-13 -6,-6
招
甲不招
-10,-10 -13,0
Proposition If the stage game G has a unique Nash equilibrium then, for any finite T,the repeated game G(T) has a unique subgameperfect outcome:the Nash equilibrium of G is played in every stage.
一、无限次重复的囚徒困境
• 以寡头削价竞争为例 • 基本博弈的结果是（L,L）。寡头1 H L 寡 H 4， 4 0， 5 头 5， 0 1， 1 L 2
引入贴现因子δ, 若某个参与人在某一路径的各个阶段的支付分别为： π1 、 π2 、……，则该参与人在该路径的“总支付” π为无限序列 π1 、 π2 、……的现值之和，即： 0≤δ≤1 δ？ π = π1+ δ π2 + δ2 π3 + …… ∞ 当δ 0，行动短视化，时间 = ∑ δt-1 πt t =1 视野往往局限于本期、近期；当δ 1，参与人有远见，他充分意识到他现期的行动决策将通过其他参与人的反应影响到他未来的收益，因而试图跨期协调其行动决策。
0,0
0,0 0,0 0,0
3,3 0,0 0,0
0 , 0 0 , 0 4,1/2 0 , 00,0Fra bibliotek0,0
0 , 0 0 , 0 1/2, 4
上面的例子因为阶段博弈的NE很丰富，且存在可供奖励和惩罚的NE，所以双方不仅可构造触发策略，而且触发策略是子博弈完美的（或者说触发策略所包含的奖励和惩罚是可信的）。双方的策略均为：第一阶段选择M；如果第一阶段的行动组合是（M，X）（或（X，M），X 为除M之外的其它可选行动），则第二阶段选P (Q)，如果是除此之外的其它任何组合，则选R。
2、后续阶段中包含着奖励和惩罚机制：选M可以奖励对方，选L可以惩罚对方。因为（M，M）和（L，L）都是阶段博弈的NE，所以奖励和惩罚都是可信的。
考虑如下抽象博弈： L 1,1 参与人2 M R P Q 5,0 0,0 0,0 0,0
L
参与人 1
M 0,5 R P Q 0,0 0,0
4,4
第一阶段的行动组合是(M,M),则第二阶段的行动组合将是(R,R);第一阶段的行动组合是(M,X)或(X， M)，则第二阶段的行动组合将是(P,P)或(Q,Q);第一阶段的行动组合为其它，则第二阶段还是(R,R)。
三、无限次重复博弈
无限次重复博弈与有限次重复博弈的异同： 1、没有最后一阶段博弈； 2、不可忽略贴现问题 3、都可能通过惩罚来实现理想的均衡。
证明
第二阶段（ M,M ）是原博弈的纳什均衡，参与人的行为不会发生偏离。第一阶段（ H,H ）虽然不是原博弈的纳什均衡，单独偏离为M能增加1单位支付，但这样做第二阶段要损失2，因而不会偏离（H,H)。
这就证明了该策略组合是子博弈完美的。从这条均衡路径中看到：将来利益对当前的选择有约束。这种策略有2个特点： 1、第一阶段选H，试探合作。机会主义
• 前面已经证明，有限次重复不会改变结果。如果是无限次，则在贴现因子较大的情况下（比较重视长期利益）可能实现合作。 • 触发策略：第一阶段采取H，在t阶段，如果前 t-1 阶段的结果都是（ H,H ），则继续采用 H ；一旦发现对方不合作（ L ），则以后永远选择 L报复。 • 假设参与人1已经采用了触发策略。 • 如果寡头2 也选择触发策略，则总支付的现值是： 4 * 4 2 * 4 ...... 4
表2
囚徒困境博弈
乙
招
不招 0,-8 -1,-1
招
甲不招
-5,-5 -8,0
（这样一个博弈重复进行2次）
而在两阶段囚徒困境中,第二阶段的NE可以完全不依赖于第一阶段的结果。分析时要注意3点： 1 逆推归纳法backwards-induction
2 参与人在第二阶段行动只须考虑该阶段的利益最大化，因为无须“瞻前顾后”。 3 分析第一阶段时，可把第二阶段的均衡结果下的支付值叠加到第一阶段的相应支付值上。
触发策略（trigger strategy）
假设寡头采取触发策略（trigger strategy），即开始选择合作，如果对方也合作，就一直合作；但在博弈中一旦发现对方不合作，就永远选择报复，不合作。寡头 1 ，第一次选 H. 如果第一次结果为（H,H)，则第二次选M;否则选L. 寡头2：同上。子博弈精炼纳什均衡结果是：第一阶段（H，H）,第二阶段（M，M）。
第四讲重复博弈(下)
一、有限次重复博弈（以two-stage repeated games为例）（一）阶段博弈只有唯一NE 考虑曾经给出的囚徒困境的标准式（回忆并画出支付矩阵）。假设两个参与者要把这样一个同时行动博弈重复两次，并且在第二次博弈开始之前可观测第一次的结果。再假设整个过程博弈的收益等于两阶段各自收益的简单相加（即不考虑贴现因素），我们称这一重复进行的博弈为两阶段囚徒困境。
(二) 存在多个NE的有限次重复博弈
• 例1：三价博弈故事：两生产同质商品的寡头。在两寡头都是高价时市场总利润为10，都是中价时市场总利润为6，都是低价时市场总利润为2。两寡头同时决策，价格相同时分享利润，否则低价者独占。
三价博弈
寡头2 M
0,6 3,3 2,0
H
寡头 1 H M L