第四讲重复博弈(下)详解
合集下载
[经济学]4 重复博弈--博弈论
![[经济学]4 重复博弈--博弈论](https://img.taocdn.com/s3/m/e21b294bb4daa58da0114a99.png)
策略、子博弈和均衡路径
得益
总得益 / 平均得益
贴现系数
T
1 223 T 1T
t 1 t
t 1
12 23 t1t
h
t1
4
4.2 有限次重复博弈
4.2.1 有限次重复的囚徒困境博弈 4.2.2 连锁店悖论 4.2.3 有限次重复猜硬币博弈 4.2.4 ★有限次两企业、两差别市场重复博弈 4.2.5 民间定理
Med Q 9,4
12,10 10, 18
Low Q 3, 6 20, 8
18, 15
Saudi Arabia
h
16
重复博弈
合理的猜想:
石油生产和出口年年持续进行,OPEC的制约和协调按 理说总是有一定作用的。各国不可能对合作的巨大好处 无动于衷,再加上我们要考虑到成员国中最大的产油国, 如沙特阿拉伯在其中会起一定的积极作用,带头克制自 己的行为。因此OPEC这个是否突破限额的重复博弈的结 果理应比完全没有制约独立决定产量的结果要好得多。
第一阶段 第二阶段
(A , B)
(B , A)
(B , A)
(A , B)
(A , B)
(A , B)
(B , A)
(B , A)
混合策略
混合策略
(A , B)
(B , A) 混合策略 混合策略
混合策略 混合策略
(B , A) (A , B)
平均(期望)得益
企业1
企业2
2.5
2.5
2.5
2.5
1
4
4
不少非OPEC成员国加入市场,使得OPEC的限产作用失 效,白白丧失许多市场份额和利润。
OPEC成员之间地位不平衡,部分成员觉得限额不公平从 而相继突破限额。
博弈论(重复博弈)

第四章 重复博弈 (p129~)
§4.1 基本概念
一、什么是重复博弈 二、重复博弈的分类 三、重复博弈的策略 四、重复博弈的收益
§4.2 有限次重复博弈
一、2人零和博弈的重复 二、有唯一纯策略NE的有限次重复博弈 三、连锁店悖论(Chainstore Paradox)
H
L
4,4
5,0
0,5
1,1
ห้องสมุดไป่ตู้
可以证明,当贴现因子 较大时,上述 策略组合构成了SPNE:
1)TS 是 NE 2)这个NE是SPNE
2.无限次重复博弈的民间定理 (p133,定理5.1)
一个n人有限博弈G中,设(x1, x2,… xn)是G的任意可 实现收益,那么无限次重复博弈G(∞, δ) 中必存在一个 SPNE,各局中人的平均收益即为(x1, x2,… xn),只要 满足如下条件: 1) 时间偏好率 r =0 或是充分小的正数; 2)博弈在任意阶段结束的概率为0或是充分小的正数; 3)支付组合的元素是n维的,且严格帕累托优于G的最 小最大收益组合。
若干无限次充分博弈的例
1.“单边”的囚徒困境 博弈(p139)
抵赖 抵赖 坦白 5,5
10,-5
坦白
-5,10
购买 高质 低质 5,5
10,-5
抵制 0,0 0,0
0,0
2.产品质量博弈(p143)
均衡成立应满足的条件: 激励相容 竞争 市场出清
3.消费者转换成本博弈(p146)
马尔可夫过程 寻求马尔可夫策略(Markov st.)
合作收益集
例
B1 (开发A) B2 (开发B) a1 (开发A) 3,3 a2 (开发B) 4,1 1,4 0,0
§4.1 基本概念
一、什么是重复博弈 二、重复博弈的分类 三、重复博弈的策略 四、重复博弈的收益
§4.2 有限次重复博弈
一、2人零和博弈的重复 二、有唯一纯策略NE的有限次重复博弈 三、连锁店悖论(Chainstore Paradox)
H
L
4,4
5,0
0,5
1,1
ห้องสมุดไป่ตู้
可以证明,当贴现因子 较大时,上述 策略组合构成了SPNE:
1)TS 是 NE 2)这个NE是SPNE
2.无限次重复博弈的民间定理 (p133,定理5.1)
一个n人有限博弈G中,设(x1, x2,… xn)是G的任意可 实现收益,那么无限次重复博弈G(∞, δ) 中必存在一个 SPNE,各局中人的平均收益即为(x1, x2,… xn),只要 满足如下条件: 1) 时间偏好率 r =0 或是充分小的正数; 2)博弈在任意阶段结束的概率为0或是充分小的正数; 3)支付组合的元素是n维的,且严格帕累托优于G的最 小最大收益组合。
若干无限次充分博弈的例
1.“单边”的囚徒困境 博弈(p139)
抵赖 抵赖 坦白 5,5
10,-5
坦白
-5,10
购买 高质 低质 5,5
10,-5
抵制 0,0 0,0
0,0
2.产品质量博弈(p143)
均衡成立应满足的条件: 激励相容 竞争 市场出清
3.消费者转换成本博弈(p146)
马尔可夫过程 寻求马尔可夫策略(Markov st.)
合作收益集
例
B1 (开发A) B2 (开发B) a1 (开发A) 3,3 a2 (开发B) 4,1 1,4 0,0
重复博弈

在有限次重复博弈中,如果原博弈存在唯 一纯策略纳什均衡组合,则重复博弈的唯 一子博弈完美纳什均衡解为各博弈方在每 阶段都采取的原博弈纳什均衡策略 由于完全理性的博弈方具有对“共同知识” 的分析推理能力,因此在从最后阶段开始 的逆推过程中,仍然无法摆脱囚徒困境 由于在这样的双方策略下,均衡路径中的 每个阶段都不存在不可信的威胁或许诺, 因此这种均衡是子博弈完美纳什均衡
重复博弈
定义:给定一个博弈G(静态或动态),若 重复进行T次G,并且在每次重复之前各博弈 方都能观察到以前博弈的结果,则称G有一 个“T次重复博弈”,记为G(T) 其中,G成为G(T)的原博弈。每次重复称为 G(T)的一个阶段 重复博弈是一种特殊的动态博弈 与静态和动态都有关系
本章主要结论 由于参与者在重复博弈中具有了长期利益 可通过在后阶段中的报复策略使威胁变得 可信 从而可能摆脱静态博弈中“追求自身利益 最大化”导致的囚徒困境,实现长期合作
但是在后续阶段中只能得到古诺产 量下的利润4,总收益: 5.0625+4(δ + δ*δ +…)= 5.0625+4 δ /(1- δ) (2) 如果得益满足(1)大于(2),触 发策略下保持合作的垄断产量将构 成子博弈完美纳什均衡 这要求:δ≥9/17
一般结论:在触发策略1中,如果满足条件 δ≥9/17,博弈方可以通过古诺产量作为 威胁,迫使对方合作达成帕累托最优的垄 断产量 如果允许其它利润较低的可实现得益,相 应的贴现系数要求是否可以降低(即博弈 方是否可以不那么看重未来长期利益)? 触发策略2:第一阶段生产q*,如果前(t- 1)阶段结局都是(q*,q*),那么继续生产q* , 否则采取纳什均衡的斗争能 起到一种威慑作用,使进入者不敢再进入 下一个市场 但在有限次重复博弈中,斗争并不是一个 可信的威胁 设前 19 个市场已被进入,进入者现在要进 入第20个市场 因为在最后阶段斗争已没有任何威慑意义, 在位者的最优选择是默许,进入者将选择 进入
第四章重复博弈详解

t 1
T
G(,)
1 2 2 3 t 1 t
t 复博弈(有限次 重复博弈或 无限次重复博弈)各个 阶段的得益,能产生与 得益序列
1, 2 ,相同的现在值,则称 为 1, 2 ,的平均得益
4.1.1 为何研究重复博弈
经济中的长期关系
人们的预见性 未来利益对当前行为的制约 长期合同、回头客、长客和一次性买卖的区别 有无确定的结束时间
4.1.2 基本概念
有限次重复博弈:给定一个基本博弈G(可以是静态博弈,也可以是动态 博弈),重复进行T次G,并且在每次重复G之前各博弈方都能观察到以前 博弈的结果,这样的博弈过程称为“G的T次重复博弈”,记为G(T)。而G 则称为G(T)的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶段”。
这种结论对于帮助我们加强对重复博弈意义的理解,帮助我们在重复 博弈中更好地把握机会,设计和运用高效率的策略,建立相互的默契 和信任,从而争取实现更好的博弈结果,都有相当重要的意义。
4.3 无限次重复博弈
4.3.1 两人零和博弈的无限次重复博弈
4.3.2 唯一纯策略纳什均衡博弈
的无限次重复博弈
4.3.3 无限次重复古诺模型
两次重复三价博弈的等价模型
触发策略:两博弈方先试探合作,一旦发现对方不合作则也用 不合作报复。 博弈方1:第一次选H;如第一次结果为(H,H),则第二次选M, 否则选L 博弈方2:同博弈方1
触发策略
在上述双方策略组合下,两次重复博弈的路径一定为第一阶段 (H,H),第二阶段(M,M)这是一个子博弈完美纳什均衡路径。
两寡头削价竞争博弈
H L H 4,4 5,0 L 0,5 1,1
T
G(,)
1 2 2 3 t 1 t
t 复博弈(有限次 重复博弈或 无限次重复博弈)各个 阶段的得益,能产生与 得益序列
1, 2 ,相同的现在值,则称 为 1, 2 ,的平均得益
4.1.1 为何研究重复博弈
经济中的长期关系
人们的预见性 未来利益对当前行为的制约 长期合同、回头客、长客和一次性买卖的区别 有无确定的结束时间
4.1.2 基本概念
有限次重复博弈:给定一个基本博弈G(可以是静态博弈,也可以是动态 博弈),重复进行T次G,并且在每次重复G之前各博弈方都能观察到以前 博弈的结果,这样的博弈过程称为“G的T次重复博弈”,记为G(T)。而G 则称为G(T)的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶段”。
这种结论对于帮助我们加强对重复博弈意义的理解,帮助我们在重复 博弈中更好地把握机会,设计和运用高效率的策略,建立相互的默契 和信任,从而争取实现更好的博弈结果,都有相当重要的意义。
4.3 无限次重复博弈
4.3.1 两人零和博弈的无限次重复博弈
4.3.2 唯一纯策略纳什均衡博弈
的无限次重复博弈
4.3.3 无限次重复古诺模型
两次重复三价博弈的等价模型
触发策略:两博弈方先试探合作,一旦发现对方不合作则也用 不合作报复。 博弈方1:第一次选H;如第一次结果为(H,H),则第二次选M, 否则选L 博弈方2:同博弈方1
触发策略
在上述双方策略组合下,两次重复博弈的路径一定为第一阶段 (H,H),第二阶段(M,M)这是一个子博弈完美纳什均衡路径。
两寡头削价竞争博弈
H L H 4,4 5,0 L 0,5 1,1
ch4 重复博弈

4.2.3多个纯策略纳什均衡的有限次重复博弈
一、三价博弈的重复博弈
厂商2 H 厂 商 1 H M L 5,5 6,0 2,0 M 0,6 3,3 2,0 三价博弈 L 0,2 0,2 1,1 厂H 商M 1 L 厂商2 H 8,8 7,1 3,1 M 1,7 4,4 3,1 L 1,3 1,3 2,2
第四章
重复博弈
本章介绍基本博弈重复进行构成重复博弈。虽 然形式上是基本博弈重复,但重复博弈中博弈方行 为和博弈结果却不一定是基本博弈的简单重复,因 为博弈方对于博弈会重复进行的意识,会使他们对 利益的判断发生变化,从而使他们在重复博弈过程 中的行为选择受到影响。这意味着不能把重复博弈 当作基本博弈的简单叠加,必须把整个重复博弈过 程作为整体进行研究。
4.2.2唯一纯策略纳什均衡博弈的 有限次重复博弈
一、 有限次重复的囚徒困境博弈
如果原博弈存在唯一的纯策略纳什均衡组合,则 有限次重复博弈的唯一的均衡解即各博弈方在每 阶段(即每次重复)中都采用原博弈的纳什均衡 策略。由于在这样的双方策略下,均衡路径中的 每个阶段都不存在不可信的威胁或许诺,因此这 种均衡是子博弈完美纳什均衡。
4.2.2唯一纯策略纳什均衡博弈的 有限次重复博弈
一、 有限次重复的囚徒困境博弈
坦白 坦白 不坦白 不坦白
-5,-5
-8, 0
0,
-8
-1,-1
图4-1 囚徒困境
求解思路:对于有限次重复囚徒困境博弈,根据动态博 弈的逆推归纳法可以求解。
4.2.2唯一纯策略纳什均衡博弈的 有限次重复博弈
一、有限次重复的囚徒困境博弈
两次重复三价博弈的等价模型
如果重复n次,结论相似。采用触发策略实现比较好的结果, 子博弈完美纳什均衡路径为:除了最后一次外,每次都采用 (H,H),最后一次采用(M,M)。当重复次数较多时, 平均得益接近于一次性博弈中(H,H)的得益(5,5)。
博弈论课件4重复博弈

5 1 1 2 5
如果博弈方2采用H,总得益现值为:
1
V 4 V
因此当 1/ 4时,此触发策略纳什均衡策略。
4.3.2 惟一纯策略纳什均衡的无限次重复博弈
无限次重复博弈民间定理(弗里德曼,1971)
设G是一个完全信息的静态博弈,用(e1, , en )记G的纳什均衡得益,
用(x , 1
重复囚徒困境悖论和连锁 店悖论
☻理论和实践的直觉矛盾,现实 中寡头之间的价格战问题并 不十分普遍,重复次数较大 的实验研究的结果(重复200 次的囚徒困境)
☻泽尔腾(1978),“连锁店悖论” (导论中的先来后到博弈), 实际中对开头几个市场的进 入者不计代价的打击
☻问题的症结与蜈蚣博弈类似, 在于在较多阶段的动态博弈 中逆推归纳法的适用性T t1t 1t1 2 23
t1
t 1
t
4.1.2 基本概念
平均得益:如果一常数作为重复博弈(有限次重复博弈或
无限次重复博弈)各个阶段的得益,能产生与得益序列
1, 2,相同的现在值,则称为1, 2,的平均得益
无限次重复博弈时
2 (1 )
1 2 23
4.2.3 多个纯策略纳什均衡的有限次重复博弈
三价博弈的两次重复博弈
+1
厂H 商M
1L
H
5,5 6,0 2,0
厂商2
M 0,6 3,3 2,0
L
0,2 0,2 1,1
+3
厂H 商M 1L
H
8,8 7,1 3,1
厂商2 M
1,7 4,4 3,1
L
1,3 1,3 2,2
三价博弈
两次重复三价博弈的等价博弈
有限次重复博弈民间定理
重复博弈的详细介绍

收益: (3,3) 权重: (1/ 3,1/ 3,1/ 3,0) [(4, 4),(5,0),(0,5),(1,1)]
平均收益
给定贴现 率 ,无限的收1益,序2,列3
的平均收益为
(1 )
t1 t
t 1
阶段博弈收益 相等时的总收益
2 t1t t 1
重复博 弈总收益
所以 故
也称触发战略;
以囚徒困境为例:开始 选择抵赖,而且一直选 择抵赖直到有一方选择 了坦白,然后永远选择 坦白;
这意味着:一旦哪个参 与人选择了坦白,就触 发了惩罚的扳机。
根据上述原则,可构造如下战略:
01 S1:第一阶段选择M1;如果第一阶段结果为(M1, M2),则下一阶段选R1;否则选择L1。
1
竞赛的第一个回合交上来的14个程序中包含了各种复杂 的战略。但使爱克斯罗德和其他人深为吃惊的是,竞赛 的桂冠属于其中最简单的战略:一报还一报(Tit for Tat)。这是多伦多大学心理学家阿纳托 ·拉帕波特提交上 来的战略。
2
一报还一报战略:它总是以合作开局,但从此以后就采 取以其人之道还治其人之身的战略。也就是说,一报还 一报的战略实行了胡萝卜加大棒的原则。
i
集合。 若存在
G(, )
(x , x , , x ) 则 存 在 贴 现 率 , 使 无 限 重 复博弈
可达到
12
。n
存在一个子博弈精炼Nash均衡,其平均收益
子博弈精炼Nash均衡的可行收益区间 (0,5) (1,1) (0,0) (4,4) (5,0)
无名氏定理的一个解释
在无限次重复博弈中,如果参与人具有足够的耐心(只要满足一定的 条件),那么任何满足个人理性的可行收益向量都可以通过一个特定的
第四讲重复博弈详解

1
重复博弈和信誉问题
如果博弈不是一次的,而是重复进行的,参与 人过去行动的历史是可以观察到的,参与人就 可以将自己的选择依赖于其他人之前的行动, 因而有了更多的战略可以选择,均衡结果可能 与一次博弈大不相同。 重复博弈理论的最大贡献是对人们之间的合作 行为提供了理性解释;在囚徒困境中,一次博 弈的唯一均衡是不合作(即坦白)。但如果博 弈无限重复,合作就可能出现。
7
市场秩序的信誉基础
经济发展史表明,在本来不认识的人之间建立相互之 间的信任关系是交易范围扩大和经济发展的关键, 而 制度作为博弈的规则 ,是建立和维持人们之间信任的 关键(Milgrom、North和Weingast,1990)。如果 制度安排使得当事人履行契约比不履行契约更有利 可图,使得人们有积极性为了交易带来的长远利益而 抵挡短期的机会主义行为的诱惑,人们之间的信任就 可以建立起来.正是从这个意义上,我们说信任是一个 制度问题.
9
市场秩序的信誉基础
但新制度经济学证明,法律制度的作用被大大地 夸大了(Greif , 1996) , 法律制度并不是合同得 以执行的唯一制度安排。即使不借助于国家的 权威,非正式的合约也可以支持交易的进行。经 验研究表明,即使在象美国这样法律制度最健全 的国家,大部分的交易活动也是通过非正式的合 约安排进行的, 商业纠纷的解决常常并不借助法 律的裁决(Macaulay , 1985 ; Macneil , 1985) 。
张维迎
2002年,他关于中国 企业的核心竞争力、中国 企业如何做大、如何重建 社会信任和企业信誉的阐 述,引起人们对这三大问 题的空前关注和讨论,当 选为“CCTV2002年中国经 济年度人物”。
5
市场秩序的信誉基础:
重复博弈和信誉问题
如果博弈不是一次的,而是重复进行的,参与 人过去行动的历史是可以观察到的,参与人就 可以将自己的选择依赖于其他人之前的行动, 因而有了更多的战略可以选择,均衡结果可能 与一次博弈大不相同。 重复博弈理论的最大贡献是对人们之间的合作 行为提供了理性解释;在囚徒困境中,一次博 弈的唯一均衡是不合作(即坦白)。但如果博 弈无限重复,合作就可能出现。
7
市场秩序的信誉基础
经济发展史表明,在本来不认识的人之间建立相互之 间的信任关系是交易范围扩大和经济发展的关键, 而 制度作为博弈的规则 ,是建立和维持人们之间信任的 关键(Milgrom、North和Weingast,1990)。如果 制度安排使得当事人履行契约比不履行契约更有利 可图,使得人们有积极性为了交易带来的长远利益而 抵挡短期的机会主义行为的诱惑,人们之间的信任就 可以建立起来.正是从这个意义上,我们说信任是一个 制度问题.
9
市场秩序的信誉基础
但新制度经济学证明,法律制度的作用被大大地 夸大了(Greif , 1996) , 法律制度并不是合同得 以执行的唯一制度安排。即使不借助于国家的 权威,非正式的合约也可以支持交易的进行。经 验研究表明,即使在象美国这样法律制度最健全 的国家,大部分的交易活动也是通过非正式的合 约安排进行的, 商业纠纷的解决常常并不借助法 律的裁决(Macaulay , 1985 ; Macneil , 1985) 。
张维迎
2002年,他关于中国 企业的核心竞争力、中国 企业如何做大、如何重建 社会信任和企业信誉的阐 述,引起人们对这三大问 题的空前关注和讨论,当 选为“CCTV2002年中国经 济年度人物”。
5
市场秩序的信誉基础:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5,5 6,0 2,0
L
0,2 0,2 1,1
存在两个纯策略纳什均衡( M,M ) 和 (L,L) ( 还 有 混 合 策 略 ) 。 但 显 然 ( H,H ) 帕 雷 托 效 率 最 高 。 是 否 重 复 (两次)进行能够实现使效率改善?
触发策略(trigger strategy)
一方的机会主义行为将触发其他参与人策略 中的惩罚机制发生。我们把这种包含着奖励和惩 罚机制的策略称为触发策略。正是由于害怕“触 发”其他参与人的惩罚机制,所以不敢利用机会 使自己在该阶段利益最大化,从而使该阶段的 “合作”出现。从这个意义上看,触发策略是 “温柔的”。
表3 囚徒困境博弈
乙
招
不招 -5,-13 -6,-6
招
甲 不招
-10,-10 -13,0
Proposition If the stage game G has a unique Nash equilibrium then, for any finite T,the repeated game G(T) has a unique subgameperfect outcome:the Nash equilibrium of G is played in every stage.
一、无限次重复的囚徒困境
• 以寡头削价竞争为例 • 基本博弈的结果是(L,L)。 寡头1 H L 寡 H 4, 4 0, 5 头 5, 0 1, 1 L 2
引入贴现因子δ, 若某个参与人在某一路 径的各个阶段的支付分别为: π1 、 π2 、……, 则该参与人在该路径的“总支付” π为 无限序列 π1 、 π2 、……的现值之和,即: 0≤δ≤1 δ? π = π1+ δ π2 + δ2 π3 + …… ∞ 当δ 0,行动短视化,时间 = ∑ δt-1 πt t =1 视野往往局限于本期、近期; 当δ 1,参与人有远见,他充分意识到他 现期的行动决策将通过其他参与人的反应影响到 他未来的收益,因而试图跨期协调其行动决策。
0,0
0,0 0,0 0,0
3,3 0,0 0,0
0 , 0 0 , 0 4,1/2 0 , 00,0Fra bibliotek0,0
0 , 0 0 , 0 1/2, 4
上面的例子因为阶段博弈的NE很丰富,且存在 可供奖励和惩罚的NE,所以双方不仅可构造触 发策略,而且触发策略是子博弈完美的(或者 说触发策略所包含的奖励和惩罚是可信的)。 双方的策略均为:第一阶段选择M;如果第一阶 段的行动组合是(M,X)(或(X,M),X 为除M之外的其它可选行动),则第二阶段选P (Q),如果是除此之外的其它任何组合,则选R。
2、后续阶段中包含着奖励和惩罚机制:选M可 以奖励对方,选L可以惩罚对方。因为(M,M) 和(L,L)都是阶段博弈的NE,所以奖励和惩 罚都是可信的。
考虑如下抽象博弈: L 1,1 参与人2 M R P Q 5,0 0,0 0,0 0,0
L
参 与 人 1
M 0,5 R P Q 0,0 0,0
4,4
第一阶段的行动组合是(M,M),则第二阶段的行动组 合将是(R,R);第一阶段的行动组合是(M,X)或(X, M),则第二阶段的行动组合将是(P,P)或(Q,Q);第 一阶段的行动组合为其它,则第二阶段还是(R,R)。
三、无限次重复博弈
无限次重复博弈与有限次重复博弈的异同: 1、没有最后一阶段博弈; 2、不可忽略贴现问题 3、都可能通过惩罚来实现理想的均衡。
证明
第二阶段( M,M )是原博弈的纳什 均衡,参与人的行为不会发生偏离。第 一阶段( H,H )虽然不是原博弈的纳什 均衡,单独偏离为M能增加1单位支付, 但这样做第二阶段要损失2,因而不会偏 离(H,H)。
这就证明了该策略组合是子博弈完美的。从这 条均衡路径中看到:将来利益对当前的选择有 约束。 这种策略有2个特点: 1、第一阶段选H,试探合作。 机会主义
• 前面已经证明,有限次重复不会改变结果。如 果是无限次,则在贴现因子较大的情况下(比 较重视长期利益)可能实现合作。 • 触发策略:第一阶段采取H,在t阶段,如果前 t-1 阶段的结果都是( H,H ),则继续采用 H ; 一旦发现对方不合作( L ),则以后永远选择 L报复。 • 假设参与人1已经采用了触发策略。 • 如果寡头2 也选择触发策略,则总支付的现值 是: 4 * 4 2 * 4 ...... 4
表2
囚徒困境博弈
乙
招
不招 0,-8 -1,-1
招
甲 不招
-5,-5 -8,0
(这样一个博弈重复进行2次)
而在两阶段囚徒困境中,第二阶段的NE可以完全 不依赖于第一阶段的结果。 分析时要注意3点: 1 逆推归纳法backwards-induction
2 参与人在第二阶段行动只须考虑该阶段的 利益最大化,因为无须“瞻前顾后”。 3 分析第一阶段时,可把第二阶段的均衡结 果下的支付值叠加到第一阶段的相应支付值上。
触发策略(trigger strategy)
假设寡头采取触发策略(trigger strategy),即开始选择合作,如果对方也合 作,就一直合作;但在博弈中一旦发现对方 不合作,就永远选择报复,不合作。 寡头 1 ,第一次选 H. 如果第一次结果为 (H,H), 则第二次选M;否则选L. 寡头2:同上。 子博弈精炼纳什均衡结果是:第一阶段 (H,H),第二阶段(M,M)。
第四讲 重复博弈(下)
一、有限次重复博弈 (以two-stage repeated games为例) (一)阶段博弈只有唯一NE 考虑曾经给出的囚徒困境的标准式(回忆并 画出支付矩阵)。 假设两个参与者要把这样一个同时行动博弈重 复两次,并且在第二次博弈开始之前可观测第一 次的结果。再假设整个过程博弈的收益等于两阶 段各自收益的简单相加(即不考虑贴现因素), 我们称这一重复进行的博弈为两阶段囚徒困境。
(二) 存在多个NE的有限次重复博弈
• 例1:三价博弈 故事:两生产同质商品的寡头。在两 寡头都是高价时市场总利润为10,都是 中价时市场总利润为6,都是低价时市场 总利润为2。两寡头同时决策,价格相同 时分享利润,否则低价者独占。
三价博弈
寡头2 M
0,6 3,3 2,0
H
寡 头 1 H M L
L
0,2 0,2 1,1
存在两个纯策略纳什均衡( M,M ) 和 (L,L) ( 还 有 混 合 策 略 ) 。 但 显 然 ( H,H ) 帕 雷 托 效 率 最 高 。 是 否 重 复 (两次)进行能够实现使效率改善?
触发策略(trigger strategy)
一方的机会主义行为将触发其他参与人策略 中的惩罚机制发生。我们把这种包含着奖励和惩 罚机制的策略称为触发策略。正是由于害怕“触 发”其他参与人的惩罚机制,所以不敢利用机会 使自己在该阶段利益最大化,从而使该阶段的 “合作”出现。从这个意义上看,触发策略是 “温柔的”。
表3 囚徒困境博弈
乙
招
不招 -5,-13 -6,-6
招
甲 不招
-10,-10 -13,0
Proposition If the stage game G has a unique Nash equilibrium then, for any finite T,the repeated game G(T) has a unique subgameperfect outcome:the Nash equilibrium of G is played in every stage.
一、无限次重复的囚徒困境
• 以寡头削价竞争为例 • 基本博弈的结果是(L,L)。 寡头1 H L 寡 H 4, 4 0, 5 头 5, 0 1, 1 L 2
引入贴现因子δ, 若某个参与人在某一路 径的各个阶段的支付分别为: π1 、 π2 、……, 则该参与人在该路径的“总支付” π为 无限序列 π1 、 π2 、……的现值之和,即: 0≤δ≤1 δ? π = π1+ δ π2 + δ2 π3 + …… ∞ 当δ 0,行动短视化,时间 = ∑ δt-1 πt t =1 视野往往局限于本期、近期; 当δ 1,参与人有远见,他充分意识到他 现期的行动决策将通过其他参与人的反应影响到 他未来的收益,因而试图跨期协调其行动决策。
0,0
0,0 0,0 0,0
3,3 0,0 0,0
0 , 0 0 , 0 4,1/2 0 , 00,0Fra bibliotek0,0
0 , 0 0 , 0 1/2, 4
上面的例子因为阶段博弈的NE很丰富,且存在 可供奖励和惩罚的NE,所以双方不仅可构造触 发策略,而且触发策略是子博弈完美的(或者 说触发策略所包含的奖励和惩罚是可信的)。 双方的策略均为:第一阶段选择M;如果第一阶 段的行动组合是(M,X)(或(X,M),X 为除M之外的其它可选行动),则第二阶段选P (Q),如果是除此之外的其它任何组合,则选R。
2、后续阶段中包含着奖励和惩罚机制:选M可 以奖励对方,选L可以惩罚对方。因为(M,M) 和(L,L)都是阶段博弈的NE,所以奖励和惩 罚都是可信的。
考虑如下抽象博弈: L 1,1 参与人2 M R P Q 5,0 0,0 0,0 0,0
L
参 与 人 1
M 0,5 R P Q 0,0 0,0
4,4
第一阶段的行动组合是(M,M),则第二阶段的行动组 合将是(R,R);第一阶段的行动组合是(M,X)或(X, M),则第二阶段的行动组合将是(P,P)或(Q,Q);第 一阶段的行动组合为其它,则第二阶段还是(R,R)。
三、无限次重复博弈
无限次重复博弈与有限次重复博弈的异同: 1、没有最后一阶段博弈; 2、不可忽略贴现问题 3、都可能通过惩罚来实现理想的均衡。
证明
第二阶段( M,M )是原博弈的纳什 均衡,参与人的行为不会发生偏离。第 一阶段( H,H )虽然不是原博弈的纳什 均衡,单独偏离为M能增加1单位支付, 但这样做第二阶段要损失2,因而不会偏 离(H,H)。
这就证明了该策略组合是子博弈完美的。从这 条均衡路径中看到:将来利益对当前的选择有 约束。 这种策略有2个特点: 1、第一阶段选H,试探合作。 机会主义
• 前面已经证明,有限次重复不会改变结果。如 果是无限次,则在贴现因子较大的情况下(比 较重视长期利益)可能实现合作。 • 触发策略:第一阶段采取H,在t阶段,如果前 t-1 阶段的结果都是( H,H ),则继续采用 H ; 一旦发现对方不合作( L ),则以后永远选择 L报复。 • 假设参与人1已经采用了触发策略。 • 如果寡头2 也选择触发策略,则总支付的现值 是: 4 * 4 2 * 4 ...... 4
表2
囚徒困境博弈
乙
招
不招 0,-8 -1,-1
招
甲 不招
-5,-5 -8,0
(这样一个博弈重复进行2次)
而在两阶段囚徒困境中,第二阶段的NE可以完全 不依赖于第一阶段的结果。 分析时要注意3点: 1 逆推归纳法backwards-induction
2 参与人在第二阶段行动只须考虑该阶段的 利益最大化,因为无须“瞻前顾后”。 3 分析第一阶段时,可把第二阶段的均衡结 果下的支付值叠加到第一阶段的相应支付值上。
触发策略(trigger strategy)
假设寡头采取触发策略(trigger strategy),即开始选择合作,如果对方也合 作,就一直合作;但在博弈中一旦发现对方 不合作,就永远选择报复,不合作。 寡头 1 ,第一次选 H. 如果第一次结果为 (H,H), 则第二次选M;否则选L. 寡头2:同上。 子博弈精炼纳什均衡结果是:第一阶段 (H,H),第二阶段(M,M)。
第四讲 重复博弈(下)
一、有限次重复博弈 (以two-stage repeated games为例) (一)阶段博弈只有唯一NE 考虑曾经给出的囚徒困境的标准式(回忆并 画出支付矩阵)。 假设两个参与者要把这样一个同时行动博弈重 复两次,并且在第二次博弈开始之前可观测第一 次的结果。再假设整个过程博弈的收益等于两阶 段各自收益的简单相加(即不考虑贴现因素), 我们称这一重复进行的博弈为两阶段囚徒困境。
(二) 存在多个NE的有限次重复博弈
• 例1:三价博弈 故事:两生产同质商品的寡头。在两 寡头都是高价时市场总利润为10,都是 中价时市场总利润为6,都是低价时市场 总利润为2。两寡头同时决策,价格相同 时分享利润,否则低价者独占。
三价博弈
寡头2 M
0,6 3,3 2,0
H
寡 头 1 H M L