重复博弈
4 重复博弈

1
2 3 1.5 1.5
混合策略
(A , B)
1.5
3
企业2得益
(1 , 4) (1.5 , 3) (3 , 3)
(2.5 , 2.5)
(2 , 2) (3 , 1.5) (4 , 1)
企业1得益
图 各均衡策略的平均得益
三次重复
企业1
无条件策略=〉有条件策略
第一阶段选A; 如果第一阶段的结果是(A,A),则第二阶段选A; 如果第一阶段的结果是(A,B),则第二阶段选B; 第三阶段无条件选B。 第一阶段选A; 第二阶段无条件选B; 如果第一阶段的结果是(A,A),则第三阶段选A; 如果第一阶段的结果是(B,A),则第三阶段选B。
平均得益=(99*3+4+1)/101=2.99
触发策略
博弈方之间首先试探合作,一旦发现对方不合作 则也用不合作相报复,利用后续阶段博弈的制约 作用达成均衡的策略。
trigger strategies 冷酷战略 grim strategies
问:能否用两次重复构造冷酷策略?如(A,A)、(A,B)
企业2
三次重复
如何证明为一条子博弈完美NE路径?
(A , A )、 (A , B ) 、 (B , A )
平均得益=(3+1+4)/3=2.67
A A 企业1 B 企业2 B
3,3 4,1
1,4 0,0
推广到任意有限次
重复101次
企业1的策略是前99次都选A,但一旦发现哪次出现结果 (A,B),则改选并坚持B到底,最后二次与三次重复的后 两次一样; 企业2的策略是前99次都选A,但一旦发现哪次出现结果 (B,A),则改选并坚持B到底,最后二次与三次重复的后 两次一样。
第六讲 重复博弈

at a1 a2 aT
t 1 T 1 t 1
T
• 无限次重复博弈的总得益的现值就是
t 1
t 1
at a1 a2
T 1
aT
• 平均得益:如果一个常数A作为重复博弈的各个阶段 的得益,能产生与得益序列a1,a2, …,aT相同的现在 值,就称A为a1,a2, …,aT的平均得益。 • 如果不考虑贴现因素,可让贴现率为1,就可以同样 适用上述定义。 • 在无限次重复博弈中,当每一阶段的得益都是A时, A 现在值就是
• 重复博弈的各阶段有时间次序,各阶段的得益也有时 序。重复次数不多或时间间隔不长,得益的时序问题 无关紧要,但若是次数较多,或时间较长,比如是无 限阶段重复博弈,就必须考虑得益的时序问题。 • 一般是把各阶段的得益折合成现值来计算。若利率为r, 则贴现系数为 1
1 r
• 则重复T次,各阶段的得益分别为a1,a2, …,aT时的总 得益的现值就是
• 2.基本概念 • (1)设G是一个基本博弈(动静都可以,但一 般研究静态),重复进行T次,并且每次重复之 前各博弈方都能看到此前的博弈结果,这样的博 弈过程称为“G的T次重复博弈”,记为G(T), G称为G(T)的原博弈,每一次重复称为G(T) 的一个阶段。 • 重复博弈的每一个阶段都是独立的博弈,各方都 有得益。这是与一般动态博弈的重要不同。另一 方面,重复博弈中各阶段的博弈方和博弈内容都 必须相同,与一般的动态博弈也不同。
1 p (1 p) A a1 a2 a3 2 1 r (1 r )
2 (1 p) 1 p t 1 at at , 其中 t 1 (1 r ) 1 r t 1 t 1 t 1
重复博弈

在有限次重复博弈中,如果原博弈存在唯 一纯策略纳什均衡组合,则重复博弈的唯 一子博弈完美纳什均衡解为各博弈方在每 阶段都采取的原博弈纳什均衡策略 由于完全理性的博弈方具有对“共同知识” 的分析推理能力,因此在从最后阶段开始 的逆推过程中,仍然无法摆脱囚徒困境 由于在这样的双方策略下,均衡路径中的 每个阶段都不存在不可信的威胁或许诺, 因此这种均衡是子博弈完美纳什均衡
重复博弈
定义:给定一个博弈G(静态或动态),若 重复进行T次G,并且在每次重复之前各博弈 方都能观察到以前博弈的结果,则称G有一 个“T次重复博弈”,记为G(T) 其中,G成为G(T)的原博弈。每次重复称为 G(T)的一个阶段 重复博弈是一种特殊的动态博弈 与静态和动态都有关系
本章主要结论 由于参与者在重复博弈中具有了长期利益 可通过在后阶段中的报复策略使威胁变得 可信 从而可能摆脱静态博弈中“追求自身利益 最大化”导致的囚徒困境,实现长期合作
但是在后续阶段中只能得到古诺产 量下的利润4,总收益: 5.0625+4(δ + δ*δ +…)= 5.0625+4 δ /(1- δ) (2) 如果得益满足(1)大于(2),触 发策略下保持合作的垄断产量将构 成子博弈完美纳什均衡 这要求:δ≥9/17
一般结论:在触发策略1中,如果满足条件 δ≥9/17,博弈方可以通过古诺产量作为 威胁,迫使对方合作达成帕累托最优的垄 断产量 如果允许其它利润较低的可实现得益,相 应的贴现系数要求是否可以降低(即博弈 方是否可以不那么看重未来长期利益)? 触发策略2:第一阶段生产q*,如果前(t- 1)阶段结局都是(q*,q*),那么继续生产q* , 否则采取纳什均衡的斗争能 起到一种威慑作用,使进入者不敢再进入 下一个市场 但在有限次重复博弈中,斗争并不是一个 可信的威胁 设前 19 个市场已被进入,进入者现在要进 入第20个市场 因为在最后阶段斗争已没有任何威慑意义, 在位者的最优选择是默许,进入者将选择 进入
第十二讲重复博弈

如果不论对方选择什么,非理性囚徒 总是选择D(合作),那么,合作均衡 就不会出现,因为给定非理性囚徒总 是选择D的情况下,C是理性囚徒的占 优战略。
54
3 g = (a − c ) 8
2 i
i的最优利润为
2 i
9 2 π = (a − c ) 64
20
j 的冷酷策略:
(1)首先选择 合作即生产量为 (2)如果i选择 2 背叛即生产量为, i 则j将永远选择 不合作。
1 g = (a − c ) 4
1 j
3 g = (a − c ) 8
21
企业i没有积极性偏离合作均 企业 没有积极性偏离合作均 衡的条件为
ui = 50 + δ 50 + • • • + δ 1− δ = 50 1− δ
T T −1
50
7
定理1.设G是价格博弈,G(T)是 G重复博弈T,
• 如果G有唯一的纳什均衡, • 则G(T)的唯一子博弈精 • 炼纳什均衡是G的纳什均衡 • 重复T次。
8
例2,掷硬币游戏
正 正 反 -1,1 1,-1
34
特别地,
• 在有限次重复囚徒博弈中,每次都选择 “坦白”是每个囚徒的最优战略。 • 这一结果与人们的直观感觉不一致。 • 阿克斯罗德( 1981)的实验结果表明,即 • 使在有限次重复博弈中,合作行为也频繁 • 出现。
35
二、悖论的破解:声誉模型
• 克瑞普斯、米尔格罗姆、罗伯茨和威尔逊(1982) • 将不完全信息引入重复博弈 • 参与人对其他参与人支付函数或策略的不完全信 息对均衡结果有重要影响, • 合作行为在有限次博弈中会出现,只要博弈重复 的次数足够长(没有必要是无限的)。 • 特别地,“坏人”可能在相当长一段时期表现得 像“好人”一样。
博弈论课件4重复博弈

5 1 1 2 5
如果博弈方2采用H,总得益现值为:
1
V 4 V
因此当 1/ 4时,此触发策略纳什均衡策略。
4.3.2 惟一纯策略纳什均衡的无限次重复博弈
无限次重复博弈民间定理(弗里德曼,1971)
设G是一个完全信息的静态博弈,用(e1, , en )记G的纳什均衡得益,
用(x , 1
重复囚徒困境悖论和连锁 店悖论
☻理论和实践的直觉矛盾,现实 中寡头之间的价格战问题并 不十分普遍,重复次数较大 的实验研究的结果(重复200 次的囚徒困境)
☻泽尔腾(1978),“连锁店悖论” (导论中的先来后到博弈), 实际中对开头几个市场的进 入者不计代价的打击
☻问题的症结与蜈蚣博弈类似, 在于在较多阶段的动态博弈 中逆推归纳法的适用性T t1t 1t1 2 23
t1
t 1
t
4.1.2 基本概念
平均得益:如果一常数作为重复博弈(有限次重复博弈或
无限次重复博弈)各个阶段的得益,能产生与得益序列
1, 2,相同的现在值,则称为1, 2,的平均得益
无限次重复博弈时
2 (1 )
1 2 23
4.2.3 多个纯策略纳什均衡的有限次重复博弈
三价博弈的两次重复博弈
+1
厂H 商M
1L
H
5,5 6,0 2,0
厂商2
M 0,6 3,3 2,0
L
0,2 0,2 1,1
+3
厂H 商M 1L
H
8,8 7,1 3,1
厂商2 M
1,7 4,4 3,1
L
1,3 1,3 2,2
三价博弈
两次重复三价博弈的等价博弈
有限次重复博弈民间定理
重复博弈的名词解释

重复博弈的名词解释重复博弈(Repeated Games)是博弈论中的一个重要分支,指的是在一定时间内重复进行相同博弈过程的一类博弈模型。
在重复博弈中,参与者的行为不再是仅基于当前回合的局部最优策略选择,而是考虑到未来回合的长期利益。
通过持续进行博弈,参与者可以互相观察对方过去的行为,并以此来调整自己的决策策略,进而达到一种稳定的合作或竞争姿态。
1. 重复博弈的基本特征重复博弈具有以下基本特征:1.1 时间维度:与一次性博弈(One-shot Games)相比,重复博弈将博弈过程拉长至多个时间回合,并通过观察对方的历史行为来调整策略选择。
1.2 互动性:重复博弈需要有多个参与者之间的相互作用,参与者的决策会受到对方决策的影响,并进一步影响对方的决策。
1.3 不完全信息:在重复博弈中,参与者对于对方的信息不完全,无法准确了解对方的策略选择和收益函数。
因此,参与者需要通过观察对方的历史行为来推测对方的潜在策略和潜在目标。
2. 重复博弈的策略选择在重复博弈中,参与者的策略选择通常可以分为两种基本类型:协作(Cooperation)和背叛(Defection)。
2.1 协作策略:协作策略指的是参与者在每一轮博弈中均选择对双方都有利的行动,追求长期合作和互利利益最大化。
协作策略的核心是建立合作的声誉和信任,通过长期合作获得稳定收益。
2.2 背叛策略:背叛策略指的是参与者在某些轮次中选择对自己有利但对对方不利的行动,追求个体利益最大化。
背叛策略的核心是以牺牲他人利益为代价,获得短期利益。
3. 重复博弈的平衡在重复博弈中,参与者通过观察对方过去的行为和收益来判断对方的策略选择,并以此为依据来调整自己的行动策略。
由于参与者之间的相互影响和信息不对称,重复博弈中存在多种平衡。
3.1 历史依赖平衡:指的是参与者根据对方过去的行为来决定自己的最优策略选择,并以此为依据来推测对方的未来行为。
通过建立声誉机制和信誉积累,在博弈的不同时间段实现稳定合作关系。
重复博弈

1,重复博弈的定义及特征 定义: (1) 定义: 重复博弈指同样结构的博弈重复多次, 其中每次博弈称为阶段博弈. (2) 特征: A,阶段博弈之间没有"物质"上的联系,即 前一阶段的博弈不改变后一阶段博弈的结构; B,所有参与人都观测到博弈过去的历史; C,参与人的总支付是所有阶段博弈支付的 贴现值之和或加权平均值.
(A,B)+(A,B) OR (B,A)+(B,A)——(1,4)(4,1) 连续两次采用混合策略——(2,2) (A,B)+(B,A) OR (B,A)+(A,B)——(2.2,2.5)轮换策略 一次纯策略+一次混合策略——(1.5,3)(3,1.5)
厂商2 得益
(1,4)
(1.5,3)
厂商2 厂商
π 1, 2 , 相同的现在值,则称π 为π 1, 2 , 的平均得益 π π
有限次重复博弈不一定考虑贴现因素 无限次重复博弈必须考虑贴现问题π = (1 δ )∑ δ t 1π t
t =1 ∞
2010年7月15日3时11分
经济管理学院 曹正勇
ห้องสมุดไป่ตู้
博弈论与信息经济学
定理1 (3)定理1
中得益的T 平均每阶段得益等于原博弈G中的得益. 在G中得益的T倍,平均每阶段得益等于原博弈G中的得益.
2010年7月15日3时11分 经济管理学院 曹正勇
博弈论与信息经济学
例2
2010年7月15日3时11分 经济管理学院 曹正勇
博弈论与信息经济学
3,无限次重复博弈 (1)特征 无限次重复博弈的特征是不存在可作为最后一 阶段的最后一次重复. 阶段的最后一次重复. (2)分析无限次重复博弈的难点 一是普通的逆推归纳法无法直接运用; 一是普通的逆推归纳法无法直接运用; 二是在无限次重复中, 二是在无限次重复中,各博弈方的各阶段得益的 总和常常是趋向无穷大的, 总和常常是趋向无穷大的,在分析无限次重复博弈 时该用什么作判断依据. 时该用什么作判断依据.
第四章 重复博弈

假设某参与人在无限次重复博弈的一个均衡 路径上各阶段博弈的收益为πt,则该参与人 无限次重复博弈的总收益(即各阶段收益 的贴现值)为
PV 1 2 2 3 t 1 t
t 1
定义: 给定一个博弈G,无限次重复进行G博弈的 过程称为G的“无限次重复博弈”,记为 G(∞,δ),其中δ是参与人收益的贴现系数 (是所有参与人共同的贴现系数)。并且 在进行第t阶段(第t次重复)博弈之前,参 与人都能看到(t-1)阶段博弈的结果。 各参与人在G(∞,δ)中的收益等于各阶段收 益的贴现值。
4、子博弈完美纳什均衡 参与人2的收益:
(1)参与人2不合作
U 5 1 1 1 5
2 3
1
(2)参与人2合作
V 4 V 4 V 1
(3)参与人合作的条件:V≥U
4 5 1 1 1 4
1 当 4
– 平均期望收益为(1.5,3)。
• 第一次是混合战略均衡,第二次是纯战略均衡(B, A);
– 平均期望收益为(3,1.5)。
4、三次重复
–三次重复博弈中,除了有与上述类似的均衡战略组合 外,还有以下战略可以构成子博弈完美纳什均衡
• 厂商1的战略:
第一阶段博弈选A; 第二阶段的行动选择取决于第一阶段的结果 第三阶段无条件选B。
参与人正确的战略就是在每次重复博弈中都采
用一次性博弈的纳什均衡策略。
三、有限次重复博弈—囚徒的困境
假设:
有两个惯犯,每次判刑都不是很重。在刑 满释放之后再作案,作案之后再判刑; 刑满释放之后又作案,如此反复。 他们反复作案之后接受隔离审查过程就是 一个重复博弈的过程。
重复两次:
逆向归纳法求解
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5
有限次重复博弈的案例
小偷பைடு நூலகம்警察的博弈
假设小镇上只有一个警察和一个小偷,根据他们的 选择可以做出如下得益矩阵:
小偷 警 察 偷 睡 -D, V 不偷 S, 0
不睡
0, -P
0, 0
从上图中我们可以明显看出,小偷和守卫都没有最优策 略,小偷偷与不偷跟守卫睡与不睡有关,同时守卫睡与不睡 也跟小偷偷与不偷有关。
从上图可以看出
一、小偷偷盗的概率小于一定程度的时候守 卫睡觉的收益是正的!
二、加大对守卫的处罚会降低小偷偷盗的概 率,因为守卫的处罚更大,小偷只有偷盗的概率 更低守卫睡觉才能取得正效用。
三、最惊人的地方在于小偷偷盗的概率原来 跟对小偷的处罚无关,却与守卫的处罚力度有关 !!!!!!
生活中的重复博弈
陌生人之间为何会因为踩一脚 而发生口角,甚至拳脚相向? 恋爱中的男女为什么会对彼此忠诚? 旅游景点为何坑特多,餐馆都价高不好吃?
重复博弈给你答案 让我们认识并走进重复博弈~
2
重复博弈的分类
有限次重复博弈
有限次重复博弈是指相同结构的博弈有限次重复进行。 在有限次重复博弈中,参与者会欺骗和违约,但当参与者不 知道哪一次是末期时,决策近于无限次博弈。
无限次重复博弈
无限次重复博弈是指同一个博弈被无限次重复多次。在 无限次重复博弈中,对于任何一个参与者的欺骗和违约行为, 其他参与者总会有机会给予报复。
无限次重复博弈的案例
产品定价博弈
厂商A和厂商B是某产业的两大寡头,他们的得益决定双方 所定的价,他们的得益矩阵如下所示:
厂商B
厂 商 A 高价(元) 高价(元) 低价(元) 12,12 4, 20 低价(元) 20, 4 15, 15
Thank you
由此可见:在一次性博弈中中,厂商A和厂商B都存在上 策,上策均衡是双方都定低价。
假如厂商A开始制定的高价策略,从支付矩阵得到 厂商B若也定高价,其每次博弈的支付分别为( 15,15 从参与人行为看,由于博弈可以重复无数次, ,15...);若厂商B制定低价,则在第一次博弈中 博弈双方为了长期利益有时间进行试探性出价。 获得高收益,但是随后会由于厂商A的低价行为而使其 在第一次博弈时出高价以寻求竞争对手的合作, 受损,各次博弈的支付分别为(20,12,12...)。 一旦对局人为了短期利益采取不合作行为,那么 厂商A的这种策略被称为“以牙还牙”策略,这种 就会建立该对局人是不可信任的信念,在下一次 策略是A在初始选择合作,如果B合作,那么A也会一直 的博弈中都采取不合作的低价行为,使对局人的 合作下去;若 B在某一次博弈中选择不合作,那么A在以 长期利益受损。 后博弈中都采取不合作策略。 可见,厂商B在第一次博弈中由于不合作策 “以牙还牙”策略意味着任何一个参与人的一次性 略得到的高收益会在以后博弈中因A的报复性策 不合作将会引起永远的不合作。所有参与人为了长期利 略而抵消,甚至在重复博弈若干次后出现损失。 益,使得无限次重复的非合作博弈产生合作解。
所以这里问题的关键在于守卫是否睡觉(因为守卫睡 觉小偷偷是理智的),或者说守卫睡觉的概率大小,那守 卫睡觉的概率大小是多少呢?这里我们就必须讨论守卫睡 觉能得到什么,或者说他的期望效用是多少?
这里假设小偷偷盗的概率是Pt,守卫睡觉的概率是Pg, 那我们马上可以算出守卫睡觉的期望效用(收益):
ER = (-D)×Pt + S×(1-Pt) 上面守卫的期望效用可以做成如下图: