重复博弈的详细介绍分解
第四章 重复博弈

通用面粉
策略 无广告 12,12 20,1 中等强度 1,20 6,6 高强度 -1,15 0,9 无广告 中等强度
凯洛格
高强度
15,-1
9,0
2,2
纳什均衡
无限重复博弈
如果企业每年都进行这种一次博弈,并且永远进行下去,这时参与人可以对对 手的“欺骗”行为进行惩罚或报复。在这种情况下,共谋起作用吗?
4.2.2 有限次重复的囚徒困境博弈
如果原博弈存在唯一的纯策略纳什均衡组合,则 有限次重复博弈的唯一的均衡解即各博弈方在每 阶段(即每次重复)中都采用原博弈的纳什均衡 策略。由于在这样的双方策略下,均衡路径中的 每个阶段都不存在不可信的威胁或许诺,因此这 种均衡是子博弈完美纳什均衡。
4.2.2 有限次重复的囚徒困境博弈
凯洛格
中等强度 高强度
Kellogg从欺骗行为中获得的好处:
欺骗 - 合作 = 20 + 2/i - (12 + 12/i) = 8 - 10/i – 假设i = .05 欺骗 - 合作 = 8 - 10/.05 = 8 - 200 = -192 欺骗没有好处. – 在无限次重复博弈中共谋是纳什均衡!
通用面粉
策略 无广告 12,12 20,1 15,-1 中等强度 1,20 6,6 9,0 高
无广告 中等强度 高强度
欺骗行为的收益和成本
如果 当前收益 > 未来成本的现值
–
欺骗行为是有利的 欺骗行为没有好处
通用面粉
策略 无广告 12,12 20,1 15,-1 中等强度 1,20 6,6 9,0 高强度 -1,15 0,9 2,2 无广告 中等强度 高强度
一次广告博弈
第四讲重复博弈(下)详解

L
0,2 0,2 1,1
存在两个纯策略纳什均衡( M,M ) 和 (L,L) ( 还 有 混 合 策 略 ) 。 但 显 然 ( H,H ) 帕 雷 托 效 率 最 高 。 是 否 重 复 (两次)进行能够实现使效率改善?
触发策略(trigger strategy)
一方的机会主义行为将触发其他参与人策略 中的惩罚机制发生。我们把这种包含着奖励和惩 罚机制的策略称为触发策略。正是由于害怕“触 发”其他参与人的惩罚机制,所以不敢利用机会 使自己在该阶段利益最大化,从而使该阶段的 “合作”出现。从这个意义上看,触发策略是 “温柔的”。
表3 囚徒困境博弈
乙
招
不招 -5,-13 -6,-6
招
甲 不招
-10,-10 -13,0
Proposition If the stage game G has a unique Nash equilibrium then, for any finite T,the repeated game G(T) has a unique subgameperfect outcome:the Nash equilibrium of G is played in every stage.
一、无限次重复的囚徒困境
• 以寡头削价竞争为例 • 基本博弈的结果是(L,L)。 寡头1 H L 寡 H 4, 4 0, 5 头 5, 0 1, 1 L 2
引入贴现因子δ, 若某个参与人在某一路 径的各个阶段的支付分别为: π1 、 π2 、……, 则该参与人在该路径的“总支付” π为 无限序列 π1 、 π2 、……的现值之和,即: 0≤δ≤1 δ? π = π1+ δ π2 + δ2 π3 + …… ∞ 当δ 0,行动短视化,时间 = ∑ δt-1 πt t =1 视野往往局限于本期、近期; 当δ 1,参与人有远见,他充分意识到他 现期的行动决策将通过其他参与人的反应影响到 他未来的收益,因而试图跨期协调其行动决策。
第十二讲重复博弈

如果不论对方选择什么,非理性囚徒 总是选择D(合作),那么,合作均衡 就不会出现,因为给定非理性囚徒总 是选择D的情况下,C是理性囚徒的占 优战略。
54
3 g = (a − c ) 8
2 i
i的最优利润为
2 i
9 2 π = (a − c ) 64
20
j 的冷酷策略:
(1)首先选择 合作即生产量为 (2)如果i选择 2 背叛即生产量为, i 则j将永远选择 不合作。
1 g = (a − c ) 4
1 j
3 g = (a − c ) 8
21
企业i没有积极性偏离合作均 企业 没有积极性偏离合作均 衡的条件为
ui = 50 + δ 50 + • • • + δ 1− δ = 50 1− δ
T T −1
50
7
定理1.设G是价格博弈,G(T)是 G重复博弈T,
• 如果G有唯一的纳什均衡, • 则G(T)的唯一子博弈精 • 炼纳什均衡是G的纳什均衡 • 重复T次。
8
例2,掷硬币游戏
正 正 反 -1,1 1,-1
34
特别地,
• 在有限次重复囚徒博弈中,每次都选择 “坦白”是每个囚徒的最优战略。 • 这一结果与人们的直观感觉不一致。 • 阿克斯罗德( 1981)的实验结果表明,即 • 使在有限次重复博弈中,合作行为也频繁 • 出现。
35
二、悖论的破解:声誉模型
• 克瑞普斯、米尔格罗姆、罗伯茨和威尔逊(1982) • 将不完全信息引入重复博弈 • 参与人对其他参与人支付函数或策略的不完全信 息对均衡结果有重要影响, • 合作行为在有限次博弈中会出现,只要博弈重复 的次数足够长(没有必要是无限的)。 • 特别地,“坏人”可能在相当长一段时期表现得 像“好人”一样。
第四章重复博弈详解

T
G(,)
1 2 2 3 t 1 t
t 复博弈(有限次 重复博弈或 无限次重复博弈)各个 阶段的得益,能产生与 得益序列
1, 2 ,相同的现在值,则称 为 1, 2 ,的平均得益
4.1.1 为何研究重复博弈
经济中的长期关系
人们的预见性 未来利益对当前行为的制约 长期合同、回头客、长客和一次性买卖的区别 有无确定的结束时间
4.1.2 基本概念
有限次重复博弈:给定一个基本博弈G(可以是静态博弈,也可以是动态 博弈),重复进行T次G,并且在每次重复G之前各博弈方都能观察到以前 博弈的结果,这样的博弈过程称为“G的T次重复博弈”,记为G(T)。而G 则称为G(T)的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶段”。
这种结论对于帮助我们加强对重复博弈意义的理解,帮助我们在重复 博弈中更好地把握机会,设计和运用高效率的策略,建立相互的默契 和信任,从而争取实现更好的博弈结果,都有相当重要的意义。
4.3 无限次重复博弈
4.3.1 两人零和博弈的无限次重复博弈
4.3.2 唯一纯策略纳什均衡博弈
的无限次重复博弈
4.3.3 无限次重复古诺模型
两次重复三价博弈的等价模型
触发策略:两博弈方先试探合作,一旦发现对方不合作则也用 不合作报复。 博弈方1:第一次选H;如第一次结果为(H,H),则第二次选M, 否则选L 博弈方2:同博弈方1
触发策略
在上述双方策略组合下,两次重复博弈的路径一定为第一阶段 (H,H),第二阶段(M,M)这是一个子博弈完美纳什均衡路径。
两寡头削价竞争博弈
H L H 4,4 5,0 L 0,5 1,1
博弈论课件4重复博弈

5 1 1 2 5
如果博弈方2采用H,总得益现值为:
1
V 4 V
因此当 1/ 4时,此触发策略纳什均衡策略。
4.3.2 惟一纯策略纳什均衡的无限次重复博弈
无限次重复博弈民间定理(弗里德曼,1971)
设G是一个完全信息的静态博弈,用(e1, , en )记G的纳什均衡得益,
用(x , 1
重复囚徒困境悖论和连锁 店悖论
☻理论和实践的直觉矛盾,现实 中寡头之间的价格战问题并 不十分普遍,重复次数较大 的实验研究的结果(重复200 次的囚徒困境)
☻泽尔腾(1978),“连锁店悖论” (导论中的先来后到博弈), 实际中对开头几个市场的进 入者不计代价的打击
☻问题的症结与蜈蚣博弈类似, 在于在较多阶段的动态博弈 中逆推归纳法的适用性T t1t 1t1 2 23
t1
t 1
t
4.1.2 基本概念
平均得益:如果一常数作为重复博弈(有限次重复博弈或
无限次重复博弈)各个阶段的得益,能产生与得益序列
1, 2,相同的现在值,则称为1, 2,的平均得益
无限次重复博弈时
2 (1 )
1 2 23
4.2.3 多个纯策略纳什均衡的有限次重复博弈
三价博弈的两次重复博弈
+1
厂H 商M
1L
H
5,5 6,0 2,0
厂商2
M 0,6 3,3 2,0
L
0,2 0,2 1,1
+3
厂H 商M 1L
H
8,8 7,1 3,1
厂商2 M
1,7 4,4 3,1
L
1,3 1,3 2,2
三价博弈
两次重复三价博弈的等价博弈
有限次重复博弈民间定理
重复博弈的名词解释

重复博弈的名词解释重复博弈(Repeated Games)是博弈论中的一个重要分支,指的是在一定时间内重复进行相同博弈过程的一类博弈模型。
在重复博弈中,参与者的行为不再是仅基于当前回合的局部最优策略选择,而是考虑到未来回合的长期利益。
通过持续进行博弈,参与者可以互相观察对方过去的行为,并以此来调整自己的决策策略,进而达到一种稳定的合作或竞争姿态。
1. 重复博弈的基本特征重复博弈具有以下基本特征:1.1 时间维度:与一次性博弈(One-shot Games)相比,重复博弈将博弈过程拉长至多个时间回合,并通过观察对方的历史行为来调整策略选择。
1.2 互动性:重复博弈需要有多个参与者之间的相互作用,参与者的决策会受到对方决策的影响,并进一步影响对方的决策。
1.3 不完全信息:在重复博弈中,参与者对于对方的信息不完全,无法准确了解对方的策略选择和收益函数。
因此,参与者需要通过观察对方的历史行为来推测对方的潜在策略和潜在目标。
2. 重复博弈的策略选择在重复博弈中,参与者的策略选择通常可以分为两种基本类型:协作(Cooperation)和背叛(Defection)。
2.1 协作策略:协作策略指的是参与者在每一轮博弈中均选择对双方都有利的行动,追求长期合作和互利利益最大化。
协作策略的核心是建立合作的声誉和信任,通过长期合作获得稳定收益。
2.2 背叛策略:背叛策略指的是参与者在某些轮次中选择对自己有利但对对方不利的行动,追求个体利益最大化。
背叛策略的核心是以牺牲他人利益为代价,获得短期利益。
3. 重复博弈的平衡在重复博弈中,参与者通过观察对方过去的行为和收益来判断对方的策略选择,并以此为依据来调整自己的行动策略。
由于参与者之间的相互影响和信息不对称,重复博弈中存在多种平衡。
3.1 历史依赖平衡:指的是参与者根据对方过去的行为来决定自己的最优策略选择,并以此为依据来推测对方的未来行为。
通过建立声誉机制和信誉积累,在博弈的不同时间段实现稳定合作关系。
第四讲重复博弈详解

重复博弈和信誉问题
如果博弈不是一次的,而是重复进行的,参与 人过去行动的历史是可以观察到的,参与人就 可以将自己的选择依赖于其他人之前的行动, 因而有了更多的战略可以选择,均衡结果可能 与一次博弈大不相同。 重复博弈理论的最大贡献是对人们之间的合作 行为提供了理性解释;在囚徒困境中,一次博 弈的唯一均衡是不合作(即坦白)。但如果博 弈无限重复,合作就可能出现。
7
市场秩序的信誉基础
经济发展史表明,在本来不认识的人之间建立相互之 间的信任关系是交易范围扩大和经济发展的关键, 而 制度作为博弈的规则 ,是建立和维持人们之间信任的 关键(Milgrom、North和Weingast,1990)。如果 制度安排使得当事人履行契约比不履行契约更有利 可图,使得人们有积极性为了交易带来的长远利益而 抵挡短期的机会主义行为的诱惑,人们之间的信任就 可以建立起来.正是从这个意义上,我们说信任是一个 制度问题.
9
市场秩序的信誉基础
但新制度经济学证明,法律制度的作用被大大地 夸大了(Greif , 1996) , 法律制度并不是合同得 以执行的唯一制度安排。即使不借助于国家的 权威,非正式的合约也可以支持交易的进行。经 验研究表明,即使在象美国这样法律制度最健全 的国家,大部分的交易活动也是通过非正式的合 约安排进行的, 商业纠纷的解决常常并不借助法 律的裁决(Macaulay , 1985 ; Macneil , 1985) 。
张维迎
2002年,他关于中国 企业的核心竞争力、中国 企业如何做大、如何重建 社会信任和企业信誉的阐 述,引起人们对这三大问 题的空前关注和讨论,当 选为“CCTV2002年中国经 济年度人物”。
5
市场秩序的信誉基础:
@第4章 重复博弈

*
*
最后这个不等式正是存在有效工资率,工作激励有效的基 131 本条件。
三 、 无 限 次 重 复 博 弈
(四)效率工资博弈
综上所述,在满足 y w 0和w w e 1 e (1 p)
* * 0
的条件下,双方的触发策略构成一个纳什均衡。而上述两式 实际上意味着 1 y e w e (1 p)
131
(一)两人零和博弈的无限次重复博弈
两人零和博弈无限次重复与有 限次重复博弈的结果并不会有什 么不同,所有阶段都不可能发生 合作,博弈方会一直重复原博 弈的混合策略纳什均衡。
三 、 无 限 次 重 复 博 弈
131
(二)唯一纯策略纳什均衡无限次重复博弈 两种情况
三 、 无 限 次 重 复 博 弈
*
e
s
0
0
努力是工人的最佳选择。
反过来,设工人已采用上述触发策略。若厂商给的工资率满 足上式条件,并且威胁一旦产量降低就解雇工人,则各阶段 的得益为 y w,无限次重复博弈得益现值为 ( y w ) (1 ) 。 * 若不愿给 w ,则解雇工人,以后得益为0。因此只要y w 0 厂商选择前述触发策略就是最佳反应。
131
(二)唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
H2
H1
L2
L1
4,4 5,0
0,5 1,1
该博弈一次性博弈均衡是都采用低价,是囚徒困境型博弈
三 、 无 限 次 重 复 博 弈
131
(二)唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
【了解】无限次重复博弈的“民间定理”(P134)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主要内容:
一、有限次重复博弈 二、无限次重复博弈与无名氏定理 三、重复博弈的社会学,老兵按住他: 别乱开枪!新兵问:为什么?老兵对其 解释:曾有一段时间,双方打得不可开 交,结果大家都躲着,屎尿都撒在猫耳 洞里,由于猫耳洞很潮湿,人呆在里面 很难受,导致有人耳朵都发了霉,最后 是谁也打不着谁,自己却活受罪。此后, 便慢慢达成默契:我出来你不开枪,你 出来我也不开枪。
一、有限次重复博弈
• 动态博弈中涉及的一个重要问题是,博弈 过程中威胁和承诺如何影响博弈的进程。 • 重复博弈所关心的议题也与之相似: (1)将来可信的威胁或承诺如何影响到 当前的行动? (2)在一次博弈中无法实现的均衡,在 重复博弈中能否实现?
考察下列博弈
1
L
2
R
U
D
1,1 0,5
5,0 4,4
• 该博弈存在唯一的Nash均衡,即(U,L)。 • 同时注意到,该博弈还存在一个高效均衡(D, R),高效均衡对应着一种合作行为。 • 为什么高效的均衡不是纳什均衡?如何保证 这一高效均衡能够实现?
两次重复博弈的博弈树
假设将上述博弈重复两次,那么第二次博弈开始 时,第一次博弈的结果可视为已知。
• S2:第一阶段选择M2;如果第一阶段 结果为(M1,M2) ,则下一阶段选R2; 否则选择L2。
根据上述战略,博弈可表示为:
L2
2
M2
R2
L1 1+1,1+1 5+1,0+1 0+1,0+1 1 M 1 0+1,5+1 4+3,4+3 0+1,0+1 R1 0+1,0+1 0+1,0+1 3+1,3+1
连锁店悖论
• 假定在位者在不同的市场上有20家连锁店, 进入者试图进入这些市场。如果进入者进 入了每一个市场,此时博弈就变成了20次 重复博弈。当进入者进入第1个市场时, 在位者应该如何反应呢? • 猜想:杀鸡儆猴的效应
单阶段博弈矩阵
支付
在位者
默许
3,3 1,10
斗争
-1,0 1,10
进入者
进入 不进入
纳什均衡为:在位者在每一个市场选择默许,进入者在 每一个市场选择进入。
单阶段扩展式博弈
k I A F
-1,0
O C
3,3 1,10
阶段博弈的子博弈精炼纳什均衡为:在位者在每一个市 场选择默许,进入者在每一个市场选择进入。 重复博弈的子博弈精炼纳什均衡:在位者在每一个市场 选择默许,进入者在每一个市场选择进入。
• 同样可证明:在n阶段重复博弈(即博弈重 复n次且每次博弈开始时,前面博弈的结 果都已知)中,高效的均衡同样无法实现。
有限重复博弈定义
• 定义: 对于给定的阶段博弈G,令G(T) 表示G重复进行T次的有限重复博弈, 并且在下一次博弈开始前,所有之 前博弈的进程均可被观测到。
有限重复博弈的战略、子博弈与支付
• 例子2
一个男孩被视为傻瓜,因为每当别 人拿一枚1块硬币和5分硬币让他选的时 候,他总是选5分的,有一个人觉得奇怪, 就问他:“为什么你不拿1块钱的?”, 男孩小声回答:“假若我拿了1块钱的硬 币,下次他们就不会再拿钱让我选了。”
• 威胁和承诺的重要性:以上两个例子带 给我们什么启发?
• 问题1
• 战略:重复博弈环境下,参与人的 战略非常复杂。一般地,我们定义 参与人的一个战略是在博弈的每个 阶段针对之前的博弈历史而制定的 行动计划; • 子博弈:子博弈要么仍然是重复博 弈,要么是原博弈;
有限重复博弈的战略、子博弈与支付 • 参与人的支付:是所有阶段博弈支付 的贴现值之和,或者加权平均值。 • 注意:在重复博弈中,阶段博弈可能 是静态博弈,也可能是动态博弈,因 此,重复博弈可能是完美信息重复博 弈和不完美信息重复博弈。此处我们 仅讨论完美信息重复博弈。
在相互联系紧密的人际关系中,人 们普遍比较注意礼节、道德,因为合作 和协调对大家都有好处;但是,我们又 常常见到这样的消息:在公共汽车上, 两个陌生人会为一个座位争吵,为什么 会发生这种事情?原因何在?
• 问题2
在“囚徒困境”这一例子中,博弈的 参与人为了追求自身利益的最大化,而陷 入了个人理性与集体理性的冲突中,导致 最优的结果未能出现,即合作没有产生。 如果我们假定博弈可以多次重复进行,结 果是否会发生变化?是否会出现合作的局 面?
冷酷战略(grim strategies)
• 也称触发战略; • 以囚徒困境为例:开始选择抵赖,而且一 直选择抵赖直到有一方选择了坦白,然后 永远选择坦白; • 这意味着:一旦哪个参与人选择了坦白, 就触发了惩罚的扳机。
根据上述原则,可构造如下战略:
• S1:第一阶段选择M1;如果第一阶段 结果为(M1,M2),则下一阶段选R1; 否则选择L1。
定理:
如果阶段博弈G有唯一的Nash均衡, 则对任意有限的T,重复博弈G(T)有唯 一的子博弈精炼解,即G的Nash均衡结 果在每一个阶段重复进行。
问题:囚徒困境中的囚徒有可能实现高效 的均衡吗?
存在多重纳什均衡的情形
考察下列博弈
L2 L1
1 M1
M2 5,0 4,4 0,0
2
R1
1,1 0,5 0,0
1 2 1
第二阶段 2 L R
1 U D
第一阶段
2 L 1 U D R
1,1 0,5
5,0 4,4
1,1 0,5
5,0 4,4
2
第一阶段
L 1
R
U 1+1,1+1 5+1,0+1 D 0+1,5+1 4+1,4+1
• 运用逆推归纳法,可以发现上述重复博弈 的子博弈精炼Nash均衡为:在每次博弈中, 参与人1都选择U,参与人2都选择L。 • 这说明:在两次重复博弈中,高效的均衡 仍无法实现。
R2 0,0 0,0 3,3
• 单阶段Nash均衡: (L1 , L2)和(R1, R2); • 合作均衡:(M1,M2); • 问题:合作均衡能否出现?
L2 L1
1 M1
M2 5,0 4,4 0,0
2
R1
1,1 0,5 0,0
R2 0,0 0,0 3,3
• 现在假设博弈重复两次,可以根据以下原则构造均 衡:由第一阶段的结果,预测第二阶段的均衡。 • 例如:若第一阶段出现(M1,M2)(即出现合作),则第 二阶段为(R1,R2)(即“好的纳什均衡”);若第一阶 段没有出现(M1, M2), 则第二阶段为(L1,L2)(即“差 的纳什均衡”)。