经济学重复博弈
重复博弈的经典例子

重复博弈的经典例子重复博弈的经典例子在经济学和游戏理论中,博弈论是一种非常重要的分析工具。
它通过对智力游戏、竞争和合作等情境的描述,来研究参与者的行为和决策方式,以及他们的利益。
其中,重复博弈是一种经典的博弈类型,透露了很多有趣的现象和策略。
本文就将介绍其中的两个典型例子。
例子一:囚徒困境囚徒困境是博弈论史上最著名的例子之一。
它描述了两名罪犯在审讯时的选择。
如果他们都保持沉默,那么他们各被判三年徒刑;如果其中一个人背叛了另一个人并供出了他的罪行,那么背叛者将被判无期徒刑而另一个人将被无罪释放;如果两个人都背叛了对方,那么都将被判十年徒刑。
显然,各自为政并不能得到最好的结果,但是如果双方都不信任彼此,那么无法避免地会被卷入恶性循环,陷入坏的局面。
所以,如何打破僵局,达到合作互惠的结果呢?答案是,在重复博弈的前提下,让双方建立起稳定的信任关系,并通过稳健的策略来激励对方合作。
比如,如果一方合作另一方背叛,那么背叛者的惩罚应该比另一方少,这样可以让背叛者看到合作的好处;如果另一方也背叛了,那么惩罚应该更大,从而降低背叛的动机。
这种实验表明,人们在重复博弈中往往会采取长远最大化利益的策略,而不是只考虑眼前的利益。
例子二:公共产品的提供公共产品是指对所有人都有益处,但是没有私人市场提供或者通过个人机会成本无法享受的产品,比如环保、文化教育等。
由于公共产品的自由乘坐,导致许多人往往倾向于“裹着麻袋过河”,即只享受公共产品的好处而不出任何力气来投资。
这样,公共产品会出现供给不足的情况,逐渐凋零。
那么,如何解决公共产品的提供问题呢?重复博弈可以给出一些帮助。
假设每个人都可以选择投资或不投资,而且每个人都可以看到其他人的决策;如果有足够多的人投资了,那么所有人都可以获得好处;如果投资的人太少了,那么所有人都得不到好处。
那么,如何让更多的人参与投资呢?答案是,通过适当设定利益偏好,比如对投资者给予优惠,以鼓励更多的人来投资。
[经济学]4 重复博弈--博弈论
![[经济学]4 重复博弈--博弈论](https://img.taocdn.com/s3/m/e21b294bb4daa58da0114a99.png)
策略、子博弈和均衡路径
得益
总得益 / 平均得益
贴现系数
T
1 223 T 1T
t 1 t
t 1
12 23 t1t
h
t1
4
4.2 有限次重复博弈
4.2.1 有限次重复的囚徒困境博弈 4.2.2 连锁店悖论 4.2.3 有限次重复猜硬币博弈 4.2.4 ★有限次两企业、两差别市场重复博弈 4.2.5 民间定理
Med Q 9,4
12,10 10, 18
Low Q 3, 6 20, 8
18, 15
Saudi Arabia
h
16
重复博弈
合理的猜想:
石油生产和出口年年持续进行,OPEC的制约和协调按 理说总是有一定作用的。各国不可能对合作的巨大好处 无动于衷,再加上我们要考虑到成员国中最大的产油国, 如沙特阿拉伯在其中会起一定的积极作用,带头克制自 己的行为。因此OPEC这个是否突破限额的重复博弈的结 果理应比完全没有制约独立决定产量的结果要好得多。
第一阶段 第二阶段
(A , B)
(B , A)
(B , A)
(A , B)
(A , B)
(A , B)
(B , A)
(B , A)
混合策略
混合策略
(A , B)
(B , A) 混合策略 混合策略
混合策略 混合策略
(B , A) (A , B)
平均(期望)得益
企业1
企业2
2.5
2.5
2.5
2.5
1
4
4
不少非OPEC成员国加入市场,使得OPEC的限产作用失 效,白白丧失许多市场份额和利润。
OPEC成员之间地位不平衡,部分成员觉得限额不公平从 而相继突破限额。
第四讲重复博弈(下)详解

L
0,2 0,2 1,1
存在两个纯策略纳什均衡( M,M ) 和 (L,L) ( 还 有 混 合 策 略 ) 。 但 显 然 ( H,H ) 帕 雷 托 效 率 最 高 。 是 否 重 复 (两次)进行能够实现使效率改善?
触发策略(trigger strategy)
一方的机会主义行为将触发其他参与人策略 中的惩罚机制发生。我们把这种包含着奖励和惩 罚机制的策略称为触发策略。正是由于害怕“触 发”其他参与人的惩罚机制,所以不敢利用机会 使自己在该阶段利益最大化,从而使该阶段的 “合作”出现。从这个意义上看,触发策略是 “温柔的”。
表3 囚徒困境博弈
乙
招
不招 -5,-13 -6,-6
招
甲 不招
-10,-10 -13,0
Proposition If the stage game G has a unique Nash equilibrium then, for any finite T,the repeated game G(T) has a unique subgameperfect outcome:the Nash equilibrium of G is played in every stage.
一、无限次重复的囚徒困境
• 以寡头削价竞争为例 • 基本博弈的结果是(L,L)。 寡头1 H L 寡 H 4, 4 0, 5 头 5, 0 1, 1 L 2
引入贴现因子δ, 若某个参与人在某一路 径的各个阶段的支付分别为: π1 、 π2 、……, 则该参与人在该路径的“总支付” π为 无限序列 π1 、 π2 、……的现值之和,即: 0≤δ≤1 δ? π = π1+ δ π2 + δ2 π3 + …… ∞ 当δ 0,行动短视化,时间 = ∑ δt-1 πt t =1 视野往往局限于本期、近期; 当δ 1,参与人有远见,他充分意识到他 现期的行动决策将通过其他参与人的反应影响到 他未来的收益,因而试图跨期协调其行动决策。
4经济博弈论-重复博弈

8、第一阶段混合策略,第二阶段(A,B) (3,6)
9、第一阶段混合策略,第二阶段(B,A) (6,3)
5
结论:
轮换策略是该重复博弈的最佳子博弈 完美纳什均衡
三次重复博弈的情形?
厂商1和厂商2可以分别采用如下触发策略:
厂商1:第一阶段选A;如果第一阶段结果是(A,A),则第 二阶段选A,如果第一阶段结果是(A,B),则第二阶段选B; 第三阶段无条件选B。 厂商2:第一阶段选A;第二阶段无条件选B;如果第一阶段 结果是(A,A),则第三阶段选A,如果第一阶段结果是(B, A),则第三阶段选B。
寡 高价 头 1 低价
寡头2 高价 低价
100,100
20,150
150, 20
70, 70
削价竞争博弈
根据前面得到的一般结论,以它为原博弈的有限次重复 博弈的唯一的子博弈完美纳什均衡,就是两博弈方重复5次 原博弈的纳什均衡策略,也就是削价,两寡头还是会不断打 价格战。
4.2 有限次重复博弈
结果为(A,A)、(A,B)、(B,A),得益为(8,8)
证明:
1、第三阶段(B,A)是原博弈的纳什均衡,不会有哪一 方愿单独偏离。
厂A 商
1B
厂商2 A B
3,3
1,4
4, 1
0,0
两市场博弈
证明:
2、第二阶段(A,B)是原博弈的纳什均衡,不会有哪一 方愿单独偏离。
厂A 商
1B
厂商2 A B
总得益
如果一个无限次重复博弈的某博弈方某一均衡下各 阶段得益分别为 p1,p 2 ,L L ,则考虑时间价值的重 复博弈总得益现在值为
¥
å p = p 1 + dp 2 + d 2p 3 + L = d t-1p t
经济博弈论之重复博弈

9
三、重复博弈的得益
重复博弈的得益,必须兼顾其他阶段的得益,或者考虑整个重复博弈过程得益 的总体情况。
1.计算重复博弈的“总得益”,即博弈方各次重复得益的总和 2.计算各阶段的“平均得益”,即总得益除以重复次数
10
三、重复博弈的得益
考虑到重复博弈额次数和时间的先后次数,不同时间获得的利益对人们的价值是 有差别的,考虑到这个因素,引进将后一段的得益折算成当前阶段得益(现在值) 的贴现系数δ 。
连锁店悖论
是指一个在n个市场都开设连锁店的企业,对于各个市场的竞争者是否打击排斥的策略选择。
“先来后到”博弈,竞争者选择进入,先占领市场的连锁店不打击, A 打进 B 不进 (1,10) 是原博弈的唯一的子博弈完美纳什均衡,是两个理性的博弈方之间 博弈的唯一结果。 根据上诉的定理和一般结论,以这个博弈为原博弈的有限次重复博弈, 唯一的子博弈完美纳什均衡就是原博弈的纳什均衡,也就是每个竞争者 可以进入,连锁店不打击。 (-2,3) (5,5) 现实中类似问题的直觉经验与该理论结论明显不符。
三价博弈
厂商2 H H 厂商1 M
M
L
5,5 6,0 2,0
0,6 3,3
0,6 0,2
L
2,0
1,1
两个纯纳什均衡(M,M),(L,L);符合博弈方总利益最大(H,H)
26
4.2.3多个纯策略纳什均衡博弈的有限次重复博弈
一、三价博弈的重复博弈
三价博弈
厂商2 H H 厂商1 M
M
L
5,5 6,0 2,0
31
4.2.3多个纯策略纳什均衡博弈的有限次重复博弈
三、两市场博弈的重复博弈 厂商2 A 3,3 4,1 B 1,4 0,0 三次重复博弈的均衡路径是(A,A),(A,B),(B,A), 得益是(3+1+4)/3=2.67.
第十二讲重复博弈

如果不论对方选择什么,非理性囚徒 总是选择D(合作),那么,合作均衡 就不会出现,因为给定非理性囚徒总 是选择D的情况下,C是理性囚徒的占 优战略。
54
3 g = (a − c ) 8
2 i
i的最优利润为
2 i
9 2 π = (a − c ) 64
20
j 的冷酷策略:
(1)首先选择 合作即生产量为 (2)如果i选择 2 背叛即生产量为, i 则j将永远选择 不合作。
1 g = (a − c ) 4
1 j
3 g = (a − c ) 8
21
企业i没有积极性偏离合作均 企业 没有积极性偏离合作均 衡的条件为
ui = 50 + δ 50 + • • • + δ 1− δ = 50 1− δ
T T −1
50
7
定理1.设G是价格博弈,G(T)是 G重复博弈T,
• 如果G有唯一的纳什均衡, • 则G(T)的唯一子博弈精 • 炼纳什均衡是G的纳什均衡 • 重复T次。
8
例2,掷硬币游戏
正 正 反 -1,1 1,-1
34
特别地,
• 在有限次重复囚徒博弈中,每次都选择 “坦白”是每个囚徒的最优战略。 • 这一结果与人们的直观感觉不一致。 • 阿克斯罗德( 1981)的实验结果表明,即 • 使在有限次重复博弈中,合作行为也频繁 • 出现。
35
二、悖论的破解:声誉模型
• 克瑞普斯、米尔格罗姆、罗伯茨和威尔逊(1982) • 将不完全信息引入重复博弈 • 参与人对其他参与人支付函数或策略的不完全信 息对均衡结果有重要影响, • 合作行为在有限次博弈中会出现,只要博弈重复 的次数足够长(没有必要是无限的)。 • 特别地,“坏人”可能在相当长一段时期表现得 像“好人”一样。
博弈论课件4重复博弈

5 1 1 2 5
如果博弈方2采用H,总得益现值为:
1
V 4 V
因此当 1/ 4时,此触发策略纳什均衡策略。
4.3.2 惟一纯策略纳什均衡的无限次重复博弈
无限次重复博弈民间定理(弗里德曼,1971)
设G是一个完全信息的静态博弈,用(e1, , en )记G的纳什均衡得益,
用(x , 1
重复囚徒困境悖论和连锁 店悖论
☻理论和实践的直觉矛盾,现实 中寡头之间的价格战问题并 不十分普遍,重复次数较大 的实验研究的结果(重复200 次的囚徒困境)
☻泽尔腾(1978),“连锁店悖论” (导论中的先来后到博弈), 实际中对开头几个市场的进 入者不计代价的打击
☻问题的症结与蜈蚣博弈类似, 在于在较多阶段的动态博弈 中逆推归纳法的适用性T t1t 1t1 2 23
t1
t 1
t
4.1.2 基本概念
平均得益:如果一常数作为重复博弈(有限次重复博弈或
无限次重复博弈)各个阶段的得益,能产生与得益序列
1, 2,相同的现在值,则称为1, 2,的平均得益
无限次重复博弈时
2 (1 )
1 2 23
4.2.3 多个纯策略纳什均衡的有限次重复博弈
三价博弈的两次重复博弈
+1
厂H 商M
1L
H
5,5 6,0 2,0
厂商2
M 0,6 3,3 2,0
L
0,2 0,2 1,1
+3
厂H 商M 1L
H
8,8 7,1 3,1
厂商2 M
1,7 4,4 3,1
L
1,3 1,3 2,2
三价博弈
两次重复三价博弈的等价博弈
有限次重复博弈民间定理
重复博弈

©2008仅供课程参考。
未经许可,请勿传播1博弈论与信息经济学重复博弈姚洪心重复博弈的现象•1.王朝更替(分久必合,合久必分)•2.情侣相处•3.政治集团的制衡与风险期(吴三桂为什么要在晚年叛变,死前封帝?)©2008仅供课程参考。
未经许可,请勿传播2重复博弈•一次动态博弈也称为“序贯博弈”。
•重复博弈:指同样结构的博弈重复多次,其中的每次博弈称为“阶段博弈”。
如囚徒困境。
•重复博弈的特征:✓1、阶段博弈之间没有“物质上”的联系,即前一阶段的博弈不改变后一阶段的结构;✓2、所有参与人都观测到博弈过去的历史;✓3、参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均均值。
贴现因子:下一期的一单位支付在这一期的价值。
注意:在每个阶段,参与人可同时行动,也可不同时行动。
©2008仅供课程参考。
未经许可,请勿传播3重复博弈©2008仅供课程参考。
未经许可,请勿传播4重复博弈©2008仅供课程参考。
未经许可,请勿传播5重复博弈因为其他参与人过去的历史总是可以观测到的,因此,一个参与人可以使自己在某个阶段博弈的选择依赖于其他参与人过去的行动历史,因此,参与人在重复博弈中的战略空间远远大于和复杂于每一阶段的战略空间,这意味着,重复博弈可能带来一些“额外”的均衡结果。
影响重复博弈均衡结果的主要因素是博弈重复的次数和信息的完备性。
博弈重复的次数的重要性来源于参与人在短期利益和长远利益之间的权衡。
信息的完备性:当一个参与人的支付函数不为其他参与人知道时,该参与人可能有积极性建立一个“好”的声誉以换取长远利益。
©2008仅供课程参考。
未经许可,请勿传播6重复博弈和无名氏定理•有限次重复博弈—连锁店悖论重复博弈冷酷策略©2008仅供课程参考。
未经许可,请勿传播9冷酷型重复博弈囚徒A争锋相对的重复博弈•12345•行抵赖坦白抵赖坦白抵赖•列抵赖抵赖坦白抵赖坦白背离争锋相对•12345•行抵赖坦白坦白坦白坦白•列抵赖抵赖坦白坦白坦白©2008仅供课程参考。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
i g1, g2 gi a g1 g2 cgi
16
①1,2不合作时的最优产量
g1
g
2
1 a
3
c
1
2
1 a c2
9
17
②1,2合作时(即各生产垄断产量的一半) 的最优产量为
g11
g
1
2
1 4
a
c
最大利润
1
1
1
2
1 8
a
c2
18
③i背叛,j合作时,i的最优生产量为
g
2 i
3 a
8
c
i的最优利润为
2 i
9 a
64
c2
19
j 的冷酷策略:
(1)首先选择 合作即生产量为
g
1 j
1 4
ac
(2)如果i选择
3 背叛即生产量为, 2 g 8 a c 则j将永远选择 i
不合作。
20
企业i没有积极性偏离合作均 衡的条件为
7
例2,掷硬币游戏
正
正
-1,1
反
1,-1
反 1,-1 -1,1
8
此博弈有唯一的混合策略纳什均衡
1 2
,
1 2
,
1 2
,
1 2
,
实验证明,它的确为最优的策略
9
第二节 无限次重复博弈
例3,无限次重复囚徒 困境博弈。
坦白 抵赖
坦白 抵赖
-6,-6 0,-9 -9,0 -1,-1
10
第二节 无限次重复博弈
一直坚持合作的总收益≥背叛的 总收益,即
21
a c2 a c2 2 a c L
8
8
8
9a c2 1 a c2
64
9
2 1 a c2 L
9
22
即
1 8
1
1
9 64
1 9
1
9
17
23
因此,当
9 即i 8
17
9
合谋就会是一个精炼纳什均衡。
24
如果有n个寡头企业,合作均衡要求
32
第四节.不完全信息重复博弈与声誉
• 一、问题的提出 • 在完全信息情况下,假定静态博弈的 • 纳什均衡是唯一的,不论博弈重复多 • 少次,只要重复的次数是有限的,唯 • 一的子博弈精炼纳什均衡是每个参与 • 人在每次博弈中选择静态均衡战略。
33
特别地,
• 在有限次重复囚徒博弈中,每次都选择 “坦白”是每个囚徒的最优战略。
的次数足够长(没有必要是无限的)。 • 特别地,“坏人”可能在相当长一段时期表现得
1
4n
n 12
1
当n
v 1Leabharlann 25即企业越多,合作越困难
企业越多企业一次性机会主义不合作 行为中的净收益相对于长远利益的比 率越大,机会主义行为 的诱惑越大。
一般说来,小团体的合作靠非正式的 规则就可以维持,
而大团体则必须依赖于正式的规则和 合约。
26
无名氏定理:有一个一次博弈G可作为某无 穷博弈的一个阶段,G有纳什均衡及其结果, 对于无限博弈,肯定存在一个贴现因子,使 无限博弈的结果不劣(弱优)于G的纳什均衡 结果
方有足够的耐心(对未来价值的估量 较大),任何短期的机会主义行为的
所得都是微不足道的,参与人有积极
性为自己建立一个乐于合作的声誉和
惩罚对方的机会主义行为。
15
例4,无限重复的古诺特寡头竞争模型。
例4,无限重复的古诺特寡头竞争模 型。
成本函数分别为C1(g1)=cg1 C2(g2)=cg2
• 这一结果与人们的直观感觉不一致。 • 阿克斯罗德( 1981)的实验结果表明,即 • 使在有限次重复博弈中,合作行为也频繁 • 出现。
34
二、悖论的破解:声誉模型
• 克瑞普斯、米尔格罗姆、罗伯茨和威尔逊(1982) • 将不完全信息引入重复博弈 • 参与人对其他参与人支付函数或策略的不完全信
息对均衡结果有重要影响, • 合作行为在有限次博弈中会出现,只要博弈重复
例3,无限次重复囚徒困境博弈。
坦白 抵赖
坦白 抵赖
-6,-6 0,-9 -9,0 -1,-1
11
冷酷策略:(1)开始选择“抵赖”
(2)如果有一方选择“坦 白”,则然后永远选择“坦 白”。
设δ为贴现因子,坚持冷酷策 略条件:
一旦坦白的总收益u0≤坚持冷 酷策略的总收益u*
12
u0 0 6 2 6 L
高价
低价
高价 低价
100,100 150,-10
-10,150 50,50
5
设贴现因子0<δ<1,重复T次 企业i的最优策略为低价,总收益为
ui 50 50 • • • T 150 501 T 1
6
定理1.设G是价格博弈,G(T)是 G重复博弈T,
• 如果G有唯一的纳什均衡, • 则G(T)的唯一子博弈精 • 炼纳什均衡是G的纳什均衡 • 重复T次。
2
(四)影响均衡结果的主要因 素是重复次数及信息的完备。
1、重复次数:当博弈重复多次 时,参与人可能为了长远利益而 牺牲眼前利益而选择不同的均衡
策略。
3
2、信息的完备性.
当某个参与人的特征不为其他参与人 所知时,
他有可能有积极性,建立一个“好” 的声誉以换取长远利益。
4
二、有限次重复博弈
例1,企业定价策略
(三)参与人的总收益是每一阶段 博弈收益的贴现之和。
设贴现值为δ的, 参与人i在第t阶段的收益为uti, 博弈重复次数为T则总收益为
ui ui1 ui2 2ui3 T 1uiT
1
如果uit ui0则
ui
u
0 i
1
T 1
1时
ui
u
0 i
1 T 1
1时
ui Tui0
29
企业提供优质品的充分必要条件
qp ( p c)q(1 2 3 ...)
即p c (1 r)c (r 1 )
1
30
二、竞争性条件
当期利润=固定资本折旧 q(p-c)=rF 当价格p=(1+r)c时 Q=F/c
31
三、市场出清条件
nq=q(p) n=q(p)/q=cq(p)/F
u* 1 1 2 1 L
即 6 1 1 1
1
6
13
大多数情况下 1
1 i
i为银行利率或投资收益率
即i 1 1
1 时 i 5 500%
6
14
这就说,i≤500%时,双方一定会坚持冷 酷策略,
从而(抵赖,抵赖)为每一个阶段的 均衡结果,且是帕累托最优的 。
其原因:如果博弈重复无穷次,且双
27
第三节无穷次重复博弈中的产品质量问题
假设:n家企业生产同一种产品,有优质与 劣质之分,其边际成本分别为c、0,固定成 本圴为F。问题:
1.企业提供优质品的条件 2.竞争性条件 3.市场出清条件
28
一、企业提供优质品的条件
生产劣质品的一次性得利是pq 生产优质品的无穷次性得利是
( p c)q(1 2 3 ...)