[经济学]博弈论第六章重复博弈

合集下载

[经济学]4 重复博弈--博弈论

策略、子博弈和均衡路径
得益
总得益 / 平均得益
贴现系数
T
1 223 T 1T
t 1 t
t 1
12 23 t1t
h
t1
4
4.2 有限次重复博弈
4.2.1 有限次重复的囚徒困境博弈 4.2.2 连锁店悖论 4.2.3 有限次重复猜硬币博弈 4.2.4 ★有限次两企业、两差别市场重复博弈 4.2.5 民间定理
Med Q 9,4
12,10 10, 18
Low Q 3, 6 20, 8
18, 15
Saudi Arabia
h
16
重复博弈
合理的猜想：
石油生产和出口年年持续进行，OPEC的制约和协调按理说总是有一定作用的。各国不可能对合作的巨大好处无动于衷，再加上我们要考虑到成员国中最大的产油国，如沙特阿拉伯在其中会起一定的积极作用，带头克制自己的行为。因此OPEC这个是否突破限额的重复博弈的结果理应比完全没有制约独立决定产量的结果要好得多。
第一阶段第二阶段
(A , B)
(B , A)
(B , A)
(A , B)
(A , B)
(A , B)
(B , A)
(B , A)
混合策略
混合策略
(A , B)
(B , A) 混合策略混合策略
混合策略混合策略
(B , A) (A , B)
平均（期望）得益
企业1
企业2
2.5
2.5
2.5
2.5
1
4
4
不少非OPEC成员国加入市场，使得OPEC的限产作用失效，白白丧失许多市场份额和利润。
OPEC成员之间地位不平衡，部分成员觉得限额不公平从而相继突破限额。

第六章第一讲重复博弈的类型解读

感谢室友不杀之恩重复博弈
2020年11月18日
博弈论第六章
1
重复博弈的类型
“宽容”OR“不好惹”？
A家长教育孩子A的原则：宽容
A的选择：及时还击，培养“不好惹”的声誉—— “他打你，你就打他”
C家长教育孩子C的原则：好斗
若A与C之间的博弈重复进行？
要与人为善
2020年11月18日
博弈论第六章
1
1 r r 市场利率
1 2 2 3 T 1T
T
2020年11月18日
t 1 博t 弈论第六章
13
t 1
重复博弈的类型
第一节重复博弈的类型
➢二、无限次重复
➢（一）案例：寡头削价竞争
➢1.案例
➢
寡头1
➢
高价
低价
➢
高价
➢寡头2
4，4
➢
低价 5，0
0，5 1，1
2020年11月18日
重复博弈的类型
第一节重复博弈的类型
➢二、无限次重复 ➢（一）案例：寡头削价竞争 ➢2.无限次重复博弈策略分析 ➢（3）以后各期
A、if寡头2合作，“高价”→ 寡头1坚持“高价”
2020年11月18日
B、 if寡头2不合作，“低价”→ 寡头1报复，永远低价
博弈论第六章
16
重复博弈的类型
第一节重复博弈的类型
9
重复博弈的类型
第一节重复博弈的类型
➢一、有限次重复
➢（二）定理：有限次重复博弈的均衡
G（T）：有限次重复博弈 G：博弈 T：重复次数 G：阶段博弈，T<∞
2020年11月18日
若G有唯一的纳什均衡，
则G（T）的唯一子博弈精炼

博弈论与信息经济学第6章完全且完美信息动态博弈——重复超级博弈-连锁店悖论-无名氏定理

博弈论与信息经济学第6章完全且完美信息动态博弈——重复超级博弈-连锁店悖论-无名氏定理博弈论与信息经济学第6章完全且完美信息动态博弈——重复/超级博弈-连锁店悖论-无名氏定理经济学院丁言强内容提要重复博弈与战略空间有限次重复博弈：连锁店悖论无限次重复博弈冷酷战略与针锋相对战略无名氏定理阿伯罗定理: 两期战略序贯博弈与重复博弈序贯博弈的特征是，参与人在前一个阶段的行动选择决定随后的子博弈的结构，因此，从后一个决策结开始的子博弈不同于从前一个决策结开始的子博弈，或者说，同样结构的子博弈只出现一次。

动态博弈的另一种特殊但是非常重要的类型是所谓的“重复博弈”，就是同样结构的博弈重复多次，其中的每次博弈称为“阶段博弈”。

在每个阶段博弈，参与人可能同时行动，也可能不同时行动，在后一种情况下，每个阶段博弈本身就是一个动态博弈。

重复博弈的3个基本特征重复博弈可能是不完美信息博弈，也可能是完美信息博弈，但在博弈论中一般指的是前一种情况。

(1)阶段博弈之间没有“物质上”的联系，即前一阶段的博弈不改变后一阶段博弈的结构；(2)所有参与人都观测到博弈过去的历史；(3)参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均值。

重复博弈的战略空间战略是一套完备的相机行动规则，它必须说明在每一种可能的状态下参与人的行动选择，即使参与人并不预期这种状态真的会出现。

因为可以观察到其他参与人过去行动的历史，一个参与人可以使自己在某个阶段博弈的选择依赖于其他参与人过去的行动历史。

所以，参与人在重复博弈中的战略是定义在博弈历史上的每个阶段博弈中的行动选择规则，即从博弈历史到行动空间的映射。

重复博弈的战略空间参与人在重复博弈中的战略空间远远大于且复杂于在每一个阶段博弈中的战略空间。

比如说，即使囚徒困境博弈只重复5次，每个囚徒的纯战略数量大于20亿个，战略组合的数量更多。

所以，重复博弈可能带来一些“额外的”均衡结果，这些均衡结果在一次博弈中是从来不会出现的。

经济博弈论之重复博弈

9
三、重复博弈的得益
重复博弈的得益，必须兼顾其他阶段的得益，或者考虑整个重复博弈过程得益的总体情况。
1.计算重复博弈的“总得益”，即博弈方各次重复得益的总和 2.计算各阶段的“平均得益”，即总得益除以重复次数
10
三、重复博弈的得益
考虑到重复博弈额次数和时间的先后次数，不同时间获得的利益对人们的价值是有差别的，考虑到这个因素，引进将后一段的得益折算成当前阶段得益（现在值）的贴现系数δ 。
连锁店悖论
是指一个在n个市场都开设连锁店的企业，对于各个市场的竞争者是否打击排斥的策略选择。
“先来后到”博弈，竞争者选择进入，先占领市场的连锁店不打击， A 打进 B 不进（1,10）是原博弈的唯一的子博弈完美纳什均衡，是两个理性的博弈方之间博弈的唯一结果。根据上诉的定理和一般结论，以这个博弈为原博弈的有限次重复博弈，唯一的子博弈完美纳什均衡就是原博弈的纳什均衡，也就是每个竞争者可以进入，连锁店不打击。（-2,3）（5,5）现实中类似问题的直觉经验与该理论结论明显不符。
三价博弈
厂商2 H H 厂商1 M
M
L
5,5 6,0 2,0
0,6 3,3
0,6 0,2
L
2,0
1,1
两个纯纳什均衡（M,M），（L,L）；符合博弈方总利益最大（H,H)
26
4.2.3多个纯策略纳什均衡博弈的有限次重复博弈
一、三价博弈的重复博弈
三价博弈
厂商2 H H 厂商1 M
M
L
5,5 6,0 2,0
31
4.2.3多个纯策略纳什均衡博弈的有限次重复博弈
三、两市场博弈的重复博弈厂商2 A 3，3 4，1 B 1，4 0，0 三次重复博弈的均衡路径是（A,A），（A,B）,(B,A)，得益是（3+1+4）/3=2.67.

重复博弈.ppt

中科院博弈论课程-乔晗
4
重复博弈的三个特征
1. 阶段博弈之间没有物理上的联系，即前一阶段博弈的结果不改变后一阶段的结构（比如剪刀、石头、布的重复）；
2. 所有参与人观察到博弈过去的历史； 3. 参与人的总支付（报酬）是所有阶段博弈支付的
贴现值之和（局中人关心的不仅是现阶段收益，还包括未来收益，因而有积极性做出不同于一次性博弈的最优选择）。
{合作，不合作} {不合作，合作} {不合作，不合作} • 三阶段博弈？ • N阶段博弈？
中科院博弈论课程-乔晗
7
重复博弈的策略空间
• 单阶段博弈：局中人的选择无法建立在对手前阶段行动的基础上
• 重复博弈：过去的行动历史可以被观察到，局中人的选择可以建立在其他局中人过去行动的基础上
如：过去你欺骗我，这次我不与你合作
中科院博弈论课程-乔晗
动；（针锋相对）
• trigger strategies: 从合作开始，一直到有一方不合作，然后永远选择不合作。（触发）
……
局中人1
合作不合作
局中人2
合作
不合作
3,3
-1,4
4，-1
0，0
中科院博弈论课程-乔晗
9
重复博弈的策略空间
• 重复博弈中，局中人可以选择的策略空间变大 • 新策略的出现使得局中人可以对对方过去的行动
1 L1 2
R1 2
L2 1
R2 1
L2 1
R2 1
L1
R1
L1
R1
L1
R1
L1
R1
2
2
2
2
2
2
2
2
L2
R2 L2

重复博弈

未经许可，请勿传播2重复博弈•一次动态博弈也称为“序贯博弈”。

•重复博弈：指同样结构的博弈重复多次，其中的每次博弈称为“阶段博弈”。

如囚徒困境。

•重复博弈的特征：✓1、阶段博弈之间没有“物质上”的联系，即前一阶段的博弈不改变后一阶段的结构；✓2、所有参与人都观测到博弈过去的历史；✓3、参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均均值。

贴现因子：下一期的一单位支付在这一期的价值。

注意：在每个阶段，参与人可同时行动，也可不同时行动。

未经许可，请勿传播5重复博弈因为其他参与人过去的历史总是可以观测到的，因此，一个参与人可以使自己在某个阶段博弈的选择依赖于其他参与人过去的行动历史，因此，参与人在重复博弈中的战略空间远远大于和复杂于每一阶段的战略空间，这意味着，重复博弈可能带来一些“额外”的均衡结果。

影响重复博弈均衡结果的主要因素是博弈重复的次数和信息的完备性。

博弈重复的次数的重要性来源于参与人在短期利益和长远利益之间的权衡。

信息的完备性：当一个参与人的支付函数不为其他参与人知道时，该参与人可能有积极性建立一个“好”的声誉以换取长远利益。

研究生-第六章博弈论与信息经济学

逆向选择
3.逆向选择与信贷市场信贷配给是信贷市场上存在的一种典型现象,原因在于逆向选择现象存在,高风险的项目驱赶了低风险的项目. 信贷市场中,一般高风险与高收益成正比,银行不了解贷款者的类型,厂商知道自己的信息.导致贷款利率与银行期望收益之间的变化如图所示,利率上升的(直接的) 收益效应大于(间接的)风险效应,π随r上升而上升; 当r>r*时,利率上升的(间接的)风险效应超过(直接的)收益效应,π随r的上升而下降,银行期望收益最大化的利率为r*.
隐藏行动事前隐藏信息逆向选择模型信号传递模型信息筛选模型隐藏信号的道德风险模型
事后
隐藏行动的道德风险模型
第一节逆向选择
1.逆向选择与旧货市场(Akerlof,the market for lemons) 逆向选择:在鉴定交易契约前,进行市场交易的一方可能因为占据信息优势,做出对自己有利,对另一方有害的事情,从而降低了市场效率,甚至可能导致这一市场的萎缩. 在旧货市场,卖者拥有信息,买者缺乏信息,买者以平均质量的价格购买旧商品,将质量较高的旧商品逐出市场,质量较差的旧商品留在市场,并最终成交. 即为旧货市场的逆向选择行为.
第三节完全信息静态博弈(二) ——混合策略(mixed strategies) ——混合策略(mixed strategies)
1.混合策略定义:σ*=(σ1*,…,σn*)=(σi*,σ-i *)是一纳什混合策略均衡,当且仅当对所有局中人而言, σi* 是σ-i*的最适反应,ui(σi*,σ-i *)≥ ui(σI',σ-i *), σ σ σ ≥ σ σ 对所有σi'∈∑i成立). 持混合策略的前提是在均衡时两种策略的报酬会相等,是预期支付最大化的推导结果. 2.案例分析掷硬币

重复博弈博弈论课件.ppt

重复博弈
重复博弈

动态博弈的类型

序贯博弈sequential game

每一个阶段的博弈结构是不同的，即从后一个决策结开始的子博弈不同于从前一个决策结开始的子博弈。或者说，同样结构的博弈只出现一次。是指同样结构的博弈重复多次，其中的每次博弈称为 “阶段博弈”。如“囚徒困境”中小偷每次作案后判刑释放后又作案。分为有限次重复博弈与无限次重复博弈
H H 厂商1 M L 5， 5 6， 0 2，0
厂商2 M
L 0，2 0，2 1，1
0，6 3，3 2，0
触发策略可信的情况
博弈方1:第一次选H,如果第一次结果为 (H,H),则第二次选择 M;否则采用P 博弈方2:第一次选H,如果第一次结果为 (H,H),则第二次选择 M;否则采用Q
博弈方1 H M L P Q
5，5 6，0 2，0
重复两阶段三价博弈的等价博弈:如果认为触发策略不可信，即不可信报复, 最佳选择为(M,M)
触发策略可信性问题

实际上,触发策略中的报复机制的可信性是一个很复杂的问题,会受到相互预期等很多复杂因素的影响。例如，未偏离的一方并不想报复偏离的一方，而偏离的一方却因为害怕报复而采用L,结果心慈手软的未偏离一方再次遭受损失，这种可能性的存在会使得报复机制实施的可能性增加。此外，考虑策略的制定者和执行者分离的情况，执行者会严格执行决策者指令的情况等等。

在有限次重复博弈中，如果原博弈存在唯一的纯策略NE，则有限次重复博弈的唯一的均衡解就是各博弈方在每阶段中都采用原博弈的NE。因为每个阶段NE都是SPNE，即不存在不可信的威胁和许诺，因此重复博弈的解也是SPNE。

《博弈论与信息经济学讲义》第6章重复博弈与信誉

重复博弈的三个特征
• 阶段博弈之间没有物质上的联系，也就是说，前一阶段的博弈不改变后一阶段的结构；
• 所有参与人观察到博弈过去的历史； • 参与人的总支付（报酬）是所有阶段博
弈支付的贴现值之和；
重复博弈和信誉问题
• 如果博弈不是一次的，而是重复进行的，参与人过去行动的历史是可以观察到的，参与人就可以将自己的选择依赖于其他人之前的行动，因而有了更多的战略可以选择，均衡结果可能与一次博弈大不相同。
RT RT
RP RP
含义
• 欺骗行为越难以被发现，欺骗发生的可能性越大；或者说，合作越困难；
• 在前面的例子，R=4, T=3, P=0. 如果欺骗一次就被发现，只要 4 3 0.25 合作就会出现；而如果欺骗两次4 才0 被发现，只
有当 0.5 时，合作才可能出现；
• 一般地，欺骗行为越不容易被发现，合作越困难。
商业社会的问题
• 现在社会被称为“匿名社会”（anonymous society），与乡村社会不同，居民的流动性大，交易双方通常并不认识，相互之间也缺少如乡村社会中存在的其他制约关系，使得受害人的惩罚措施受到很大限制；开放的社会也使得人们较不在乎闲言碎语的议论。凡此种种，使得传统的以个人为基础的信誉机制失灵，这也是都市社会犯罪率高的一个重要原因。但是，西方市场经济只所以能发达到今天的程度，除了较完善的司法制度之外，是因为他们在更高的形态上复制出了前面讲的四个条件。
社团内的博弈
B
A
C
H
D
G
E
F
社团内的博弈
B
A
C
H
D
G
E
F
Third-party enforcement problem

第讲博弈论重复博弈课件

反悔去用其他策略？
• 如果你知道对方会一直坦白，那么你的最佳应对是一直坦白 • T,T,T,T,… • T,T,T,T,…
第讲博弈论重复博弈
24
重复博弈和无名氏定理
• 考虑下列所谓的“冷酷策略”(grim strategies):
• 开始时选择抵赖；
• 选择抵赖直到有一方选择
囚徒
1
了坦白，然后永远选择坦
19
• 当博弈有多个纳什均衡时，参与人可以使用不同的纳什均衡惩罚前面阶段的不合作行为或奖励第一阶段的合作行为。
• 从而迫使大家合作
第讲博弈论重复博弈
20
今天欺骗的收获合作后的收获（承诺） – 欺骗后的收获（威胁）
教训：在发展关系的时候，承诺合作后的收益以及威胁欺骗的惩罚，有时能够激励今天良好行为的发生。而这种行为，有助于创建一个好的未来！
• 但这个机会主义行为将触发他的伙伴选择“永远坦白” 的惩罚，因此i随后每个阶段的支付都是-8。
• 因此，如果下列条件满足，给定对手没有选择坦白，i 将不会选择坦白
0 a ( 8 ) a 2 ( 8 ) . . 1 . a ( 1 ) a 2 ( 1 ) ...
即
8a 1 1a 1a
第讲博弈论重复博弈
• 今天投资100万元的项目，将来如能收回200万，也不能证明此项投资一定有效。因为如果这回收的 200万要等50年之后，今天衡量的价值就远低于100万。这是由于如果利率是3%，100万元存银行，50
年内得到的利息也将达338万元（利率为2%的话，50年的利息为169万元）。所以50年后回收200万的
白。
坦白抵赖
囚徒2 坦白抵赖 -8，-8 0，-10
-10, 0 -1,-1

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

触发策略

两个最著名的触发策略：冷酷策略和礼尚往来策略。触发策略包含着威胁和惩罚，但惩罚的力度有所不同。冷酷策略：双方一开始的时候选择合作，然后继续选择合作，知道有一方选择背叛，从此永远选择背叛。即任何局中人的一次性不合作将触发永远不合作。礼尚往来策略：开始的时候和冷酷策略一样，即双方从合作开始，在以后的每个阶段，如果你的对手在最近的一次或连续K次博弈中采取合作策略，则你继续跟他合作；如果你的对手在上一阶段的博弈中采取背叛策略，则你在下次的博弈中背叛他，或者连续K次背叛他。
低价高价
低价
企业甲高价
3，3 1，6
6，1 5，5
有限次重复博弈的定义

有限次重复博弈：给定一个基本博弈G（可以是静态博弈，也可以是动态博弈），重复进行T次G，并且在每次重复G之前各博弈方都能观察到以前博弈的结果，这样的博弈过程称为“G的T次重复博弈”，记为 G(T)。而G则称为G(T)的“原博弈”。G(T) 中的每次重复称为G(T)的一个“阶段”。

在囚徒困境中，重复博弈是一种促使局中人采用合作策略的机制。因为，局中人担心一次不合作会招致未来合作机会的丧失。如果未来合作的价值很大，超过采取背叛策略所能获得的短期收益，则双方会出于长远利益的考虑，形成非契约的默契，使彼此都从默契的非契约合约中得到好处。
重复博弈产生“道德感”

有一群猴子被关在笼子里，从笼子上方垂下一条绳子，绳子的末端栓着一个香蕉，上端连着一个机关，机关可以开启水源。猴子们发现了香蕉，纷纷跳上去够这个香蕉，当猴子够着香蕉时，相连的绳子带动了机关，于是一盆水倒了下来，尽管够到香蕉的猴子吃到了香蕉，但是大多数的猴子都被淋湿了。这个过程重复着，猴子们发现，吃到香蕉的猴子是少数，其余的猴子都被淋湿了。于是，每当有猴子去以香蕉时，其它的猴子主动地去撕咬那个猴子，久而久之，猴子们产生了默契，再也没有猴子敢去取香蕉了。

有限次重复博弈的结果

由此表明，如果纳什均衡是唯一的，只要博弈的重复次数有限，重致这个结果的原因是，当阶段博弈有多个纳什均衡时，参与人可以使用不同的纳什均衡惩罚第一阶段的不合作行为或奖励第一阶段的合作行为。

第二节囚徒困境的无限次重复
一、重复博弈的概念

重复博弈是一种特殊的动态博弈，它是指同样结构的博弈重复多次。其中的每一次博弈称为“阶段博弈”。局中人可以根据先前双方的博弈行为，决定自己下一阶段的策略选择。三项基本特征：（1）阶段博弈之间没有“物质上” 的联系，也就是说，前一阶段的博弈不改变后一阶段博弈的结构；（2）所有参与人都观测到博弈过去的历史；（3）参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均值。
有限次重复博弈的结果

假如该企业之间的合作关系只有两次，博弈的结果？利用倒推法.在第二阶段中，双方都意识到这是最后一次合作，即以后没有合作关系了，即没有损失“2万”的代价了，因此，双方都会背叛合作以获得1万元好处。
在第一阶段中，双方想到下个阶段对方会背叛自己，因此想：自己在这个阶段背叛可能获得1万元的好处，因此，双方在第一个阶段就都会采取低价。博弈的结果和一次囚徒困境博弈的结果一样。

礼尚往来策略

惩罚一次的礼尚往来策略，叫做严格礼尚往来策略：即你对我好我也对你好，你对我坏我马上也对你坏，“以牙还牙”、 “针锋相对”。它“不记仇”。
礼尚往来策略的结果分析

假如在前面那个案例中，企业乙背叛了一个星期后，突然又“改邪归正”，选择继续合作，则选择合作的这个星期，利润只有1万，因为此时，甲企业为了惩罚他的上次背叛使用了低价策略，因此，这次背叛的收益是1万（在背叛的那个星期获得的），背叛的成本是损失了4万（在背叛后接下来的一个星期发生的），那么他这次背叛是否值得呢？

博弈重复无穷多次而不是有限次时，存在着完全不同于一次博弈的子博弈精炼纳什均衡。在任何博弈中，局中人会根据前一阶段双方是否合作，决定自己下一阶段的策略是选择合作还是背叛。——依存策略（或称之为相机策略）。大多数依存策略是触发策略：即只要他的对手在博弈中一直采取合作策略，则该局中人也会在博弈中继续采取合作策略；但是，一旦对手在某一个阶段采取背叛策略，将会触发该局中人在往后的一段时期内采取不合作策略，甚至永远采取不合作策略，从而对对手实施惩罚。
第六章重复博弈和策略性行动
本章主要考察重复博弈是如何进行的，如何计算重复博弈的支付，以及如何寻找重复博弈的纳什均衡。
主要内容

1、囚徒困境的有限次重复 2、囚徒困境的无限次重复 3、重复次数不确定的情形 4、策略型行动的分类 5、承诺及其可信性 6、重复博弈的运用
为什么研究重复博弈

二、影响结果的主要因素
（1）重复次数。其重要性来自于参与人在短期利益与长期利用之间的权衡。当博弈只进行一次时，每个参与人可能只关心一次性的支付；但如果博弈重复多次，参与人可能会为了长远利益而牺牲眼前利益，从而选择不同的均衡策略。—这是重复博弈分析给出的一个强有力的结果，它为现实中观测到的许多合作行为和社会规范提供了解释。（2）信息完备性。退一步讲，即便一个参与人的支付函数（特征）不为其他参与人所知时，该参与人可能有积极性建立一个“好声誉”以换取长远利益。这一点或许可以解释为什么那些本质并不好的人在相当长的时间内干好事。

第一节囚徒困境的有限次重复

假如两个企业垄断了一种商品市场，他们之间的博弈如图所示。假定开始的时候两家企业彼此合作，双方都实行高价。假如一个星期后乙背叛合作采取低价，他的利润将从5万增加到6万。但甲企业看到后也将采取低价，从此双方的利润各为3 万。即乙企业在背叛的当周获得了1万利润的增加，但往后的每个星期都以损失2万为代价。企业乙博弈的结果？

即使在不完全信息的情况下，如果博弈重复无穷多次，均衡结果也可能大大不同于一次性博弈。
一种威胁策略，即使在一次博弈中是不可置信的，在无限次重复博弈中却可能是值得置信的，因为在后一种情况下，当事人考虑的所有未来收益的贴现值之和，而不是一次性收益。如果施行威胁带来的贴现值之和大于不施行威胁的贴现值之和，威胁就是可置信的。