[经济学]博弈论第六章 重复博弈

合集下载

[经济学]4 重复博弈--博弈论

[经济学]4 重复博弈--博弈论

策略、子博弈和均衡路径
得益
总得益 / 平均得益
贴现系数
T
1 223 T 1T
t 1 t
t 1
12 23 t1t
h
t1
4
4.2 有限次重复博弈
4.2.1 有限次重复的囚徒困境博弈 4.2.2 连锁店悖论 4.2.3 有限次重复猜硬币博弈 4.2.4 ★有限次两企业、两差别市场重复博弈 4.2.5 民间定理
Med Q 9,4
12,10 10, 18
Low Q 3, 6 20, 8
18, 15
Saudi Arabia
h
16
重复博弈
合理的猜想:
石油生产和出口年年持续进行,OPEC的制约和协调按 理说总是有一定作用的。各国不可能对合作的巨大好处 无动于衷,再加上我们要考虑到成员国中最大的产油国, 如沙特阿拉伯在其中会起一定的积极作用,带头克制自 己的行为。因此OPEC这个是否突破限额的重复博弈的结 果理应比完全没有制约独立决定产量的结果要好得多。
第一阶段 第二阶段
(A , B)
(B , A)
(B , A)
(A , B)
(A , B)
(A , B)
(B , A)
(B , A)
混合策略
混合策略
(A , B)
(B , A) 混合策略 混合策略
混合策略 混合策略
(B , A) (A , B)
平均(期望)得益
企业1
企业2
2.5
2.5
2.5
2.5
1
4
4
不少非OPEC成员国加入市场,使得OPEC的限产作用失 效,白白丧失许多市场份额和利润。
OPEC成员之间地位不平衡,部分成员觉得限额不公平从 而相继突破限额。

第六章第一讲重复博弈的类型解读

第六章第一讲重复博弈的类型解读
感谢室友不杀之恩 重复 博弈
2020年11月18日
博弈论第六章
1
重复博弈的类型
“宽容”OR“不好惹”?
A家长教育孩子A的原则: 宽容
A的选择: 及时还击, 培养“不好惹”的声誉—— “他打你,你就打他”
C家长教育孩子C的原则: 好斗
若A与C之间的博 弈重复进行?
要与人为善
2020年11月18日
博弈论第六章
1
1 r r 市场利率
1 2 2 3 T 1T
T
2020年11月18日
t 1 博t 弈论第六章
13
t 1
重复博弈的类型
第一节 重复博弈的类型
➢二、无限次重复
➢(一)案例:寡头削价竞争
➢1.案例

寡头1

高价
低价

高价
➢寡头2
4,4

低价 5,0
0,5 1,1
2020年11月18日
重复博弈的类型
第一节 重复博弈的类型
➢二、无限次重复 ➢(一)案例:寡头削价竞争 ➢2.无限次重复博弈策略分析 ➢(3)以后各期
A、if寡头2合作,“高价”→ 寡头1坚持“高价”
2020年11月18日
B、 if寡头2不合作,“低价”→ 寡头1报复,永远低价
博弈论第六章
16
重复博弈的类型
第一节 重复博弈的类型
9
重复博弈的类型
第一节 重复博弈的类型
➢一、有限次重复
➢(二)定理:有限次重复博弈的均衡
G(T):有限次重复博弈 G:博弈 T:重复次数 G:阶段博弈,T<∞
2020年11月18日
若G有唯一的纳什均衡,
则G(T)的唯一子博弈精炼

博弈论与信息经济学第6章完全且完美信息动态博弈——重复超级博弈-连锁店悖论-无名氏定理

博弈论与信息经济学第6章完全且完美信息动态博弈——重复超级博弈-连锁店悖论-无名氏定理

博弈论与信息经济学第6章完全且完美信息动态博弈——重复超级博弈-连锁店悖论-无名氏定理博弈论与信息经济学第6章完全且完美信息动态博弈——重复/超级博弈-连锁店悖论-无名氏定理经济学院丁言强内容提要重复博弈与战略空间有限次重复博弈:连锁店悖论无限次重复博弈冷酷战略与针锋相对战略无名氏定理阿伯罗定理: 两期战略序贯博弈与重复博弈序贯博弈的特征是,参与人在前一个阶段的行动选择决定随后的子博弈的结构,因此,从后一个决策结开始的子博弈不同于从前一个决策结开始的子博弈,或者说,同样结构的子博弈只出现一次。

动态博弈的另一种特殊但是非常重要的类型是所谓的“重复博弈”,就是同样结构的博弈重复多次,其中的每次博弈称为“阶段博弈”。

在每个阶段博弈,参与人可能同时行动,也可能不同时行动,在后一种情况下,每个阶段博弈本身就是一个动态博弈。

重复博弈的3个基本特征重复博弈可能是不完美信息博弈,也可能是完美信息博弈,但在博弈论中一般指的是前一种情况。

(1)阶段博弈之间没有“物质上”的联系,即前一阶段的博弈不改变后一阶段博弈的结构;(2)所有参与人都观测到博弈过去的历史;(3)参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均值。

重复博弈的战略空间战略是一套完备的相机行动规则,它必须说明在每一种可能的状态下参与人的行动选择,即使参与人并不预期这种状态真的会出现。

因为可以观察到其他参与人过去行动的历史,一个参与人可以使自己在某个阶段博弈的选择依赖于其他参与人过去的行动历史。

所以,参与人在重复博弈中的战略是定义在博弈历史上的每个阶段博弈中的行动选择规则,即从博弈历史到行动空间的映射。

重复博弈的战略空间参与人在重复博弈中的战略空间远远大于且复杂于在每一个阶段博弈中的战略空间。

比如说,即使囚徒困境博弈只重复5次,每个囚徒的纯战略数量大于20亿个,战略组合的数量更多。

所以,重复博弈可能带来一些“额外的”均衡结果,这些均衡结果在一次博弈中是从来不会出现的。

经济博弈论之重复博弈

经济博弈论之重复博弈

9
三、重复博弈的得益
重复博弈的得益,必须兼顾其他阶段的得益,或者考虑整个重复博弈过程得益 的总体情况。
1.计算重复博弈的“总得益”,即博弈方各次重复得益的总和 2.计算各阶段的“平均得益”,即总得益除以重复次数
10
三、重复博弈的得益
考虑到重复博弈额次数和时间的先后次数,不同时间获得的利益对人们的价值是 有差别的,考虑到这个因素,引进将后一段的得益折算成当前阶段得益(现在值) 的贴现系数δ 。
连锁店悖论
是指一个在n个市场都开设连锁店的企业,对于各个市场的竞争者是否打击排斥的策略选择。
“先来后到”博弈,竞争者选择进入,先占领市场的连锁店不打击, A 打进 B 不进 (1,10) 是原博弈的唯一的子博弈完美纳什均衡,是两个理性的博弈方之间 博弈的唯一结果。 根据上诉的定理和一般结论,以这个博弈为原博弈的有限次重复博弈, 唯一的子博弈完美纳什均衡就是原博弈的纳什均衡,也就是每个竞争者 可以进入,连锁店不打击。 (-2,3) (5,5) 现实中类似问题的直觉经验与该理论结论明显不符。
三价博弈
厂商2 H H 厂商1 M
M
L
5,5 6,0 2,0
0,6 3,3
0,6 0,2
L
2,0
1,1
两个纯纳什均衡(M,M),(L,L);符合博弈方总利益最大(H,H)
26
4.2.3多个纯策略纳什均衡博弈的有限次重复博弈
一、三价博弈的重复博弈
三价博弈
厂商2 H H 厂商1 M
M
L
5,5 6,0 2,0
31
4.2.3多个纯策略纳什均衡博弈的有限次重复博弈
三、两市场博弈的重复博弈 厂商2 A 3,3 4,1 B 1,4 0,0 三次重复博弈的均衡路径是(A,A),(A,B),(B,A), 得益是(3+1+4)/3=2.67.

重复博弈.ppt

重复博弈.ppt

中科院博弈论课程-乔晗
4
重复博弈的三个特征
1. 阶段博弈之间没有物理上的联系,即前一阶段博 弈的结果不改变后一阶段的结构(比如剪刀、石 头、布的重复);
2. 所有参与人观察到博弈过去的历史; 3. 参与人的总支付(报酬)是所有阶段博弈支付的
贴现值之和(局中人关心的不仅是现阶段收益, 还包括未来收益,因而有积极性做出不同于一次 性博弈的最优选择)。
{合作,不合作} {不合作,合作} {不合作,不合作} • 三阶段博弈? • N阶段博弈?
中科院博弈论课程-乔晗
7
重复博弈的策略空间
• 单阶段博弈:局中人的选择无法建立在对手前阶 段行动的基础上
• 重复博弈:过去的行动历史可以被观察到,局中 人的选择可以建立在其他局中人过去行动的基础 上
如:过去你欺骗我,这次我不与你合作
中科院博弈论课程-乔晗
动;(针锋相对)
• trigger strategies: 从合作开始,一直到有一方不合作,然后 永远选择不合作。(触发)
……
局中人1
合作 不合作
局中人2
合作
不合作
3,3
-1,4
4,-1
0,0
中科院博弈论课程-乔晗
9
重复博弈的策略空间
• 重复博弈中,局中人可以选择的策略空间变大 • 新策略的出现使得局中人可以对对方过去的行动
1 L1 2
R1 2
L2 1
R2 1
L2 1
R2 1
L1
R1
L1
R1
L1
R1
L1
R1
2
2
2
2
2
2
2
2
L2
R2 L2

重复博弈

重复博弈

©2008仅供课程参考。

未经许可,请勿传播1博弈论与信息经济学重复博弈姚洪心重复博弈的现象•1.王朝更替(分久必合,合久必分)•2.情侣相处•3.政治集团的制衡与风险期(吴三桂为什么要在晚年叛变,死前封帝?)©2008仅供课程参考。

未经许可,请勿传播2重复博弈•一次动态博弈也称为“序贯博弈”。

•重复博弈:指同样结构的博弈重复多次,其中的每次博弈称为“阶段博弈”。

如囚徒困境。

•重复博弈的特征:✓1、阶段博弈之间没有“物质上”的联系,即前一阶段的博弈不改变后一阶段的结构;✓2、所有参与人都观测到博弈过去的历史;✓3、参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均均值。

贴现因子:下一期的一单位支付在这一期的价值。

注意:在每个阶段,参与人可同时行动,也可不同时行动。

©2008仅供课程参考。

未经许可,请勿传播3重复博弈©2008仅供课程参考。

未经许可,请勿传播4重复博弈©2008仅供课程参考。

未经许可,请勿传播5重复博弈因为其他参与人过去的历史总是可以观测到的,因此,一个参与人可以使自己在某个阶段博弈的选择依赖于其他参与人过去的行动历史,因此,参与人在重复博弈中的战略空间远远大于和复杂于每一阶段的战略空间,这意味着,重复博弈可能带来一些“额外”的均衡结果。

影响重复博弈均衡结果的主要因素是博弈重复的次数和信息的完备性。

博弈重复的次数的重要性来源于参与人在短期利益和长远利益之间的权衡。

信息的完备性:当一个参与人的支付函数不为其他参与人知道时,该参与人可能有积极性建立一个“好”的声誉以换取长远利益。

©2008仅供课程参考。

未经许可,请勿传播6重复博弈和无名氏定理•有限次重复博弈—连锁店悖论重复博弈冷酷策略©2008仅供课程参考。

未经许可,请勿传播9冷酷型重复博弈囚徒A争锋相对的重复博弈•12345•行抵赖坦白抵赖坦白抵赖•列抵赖抵赖坦白抵赖坦白背离争锋相对•12345•行抵赖坦白坦白坦白坦白•列抵赖抵赖坦白坦白坦白©2008仅供课程参考。

研究生-第六章 博弈论与信息经济学

研究生-第六章 博弈论与信息经济学

逆向选择
3.逆向选择与信贷市场 信贷配给是信贷市场上存在的一种典型现象,原因在于逆 向选择现象存在,高风险的项目驱赶了低风险的项目. 信贷市场中,一般高风险与高收益成正比,银行不了解贷 款者的类型,厂商知道自己的信息.导致贷款利率与银 行期望收益之间的变化如图所示,利率上升的(直接的) 收益效应大于(间接的)风险效应,π随r上升而上升; 当r>r*时,利率上升的(间接的)风险效应超过(直接 的)收益效应,π随r的上升而下降,银行期望收益最大 化的利率为r*.
隐藏行动 事前 隐藏信息 逆向选择模型 信号传递模型 信息筛选模型 隐藏信号的道德风险模型
事后
隐藏行动的道德风险模型
第一节 逆向选择
1.逆向选择与旧货市场(Akerlof,the market for lemons) 逆向选择:在鉴定交易契约前,进行市场交易的一方 可能因为占据信息优势,做出对自己有利,对另一方 有害的事情,从而降低了市场效率,甚至可能导致这 一市场的萎缩. 在旧货市场,卖者拥有信息,买者缺乏信息,买者以 平均质量的价格购买旧商品,将质量较高的旧商品逐 出市场,质量较差的旧商品留在市场,并最终成交. 即为旧货市场的逆向选择行为.
第三节 完全信息静态博弈(二) ——混合策略(mixed strategies) ——混合策略(mixed strategies)
1.混合策略 定义:σ*=(σ1*,…,σn*)=(σi*,σ-i *)是一纳什混合 策略均衡,当且仅当对所有局中人而言, σi* 是σ-i*的最适反应,ui(σi*,σ-i *)≥ ui(σI',σ-i *), σ σ σ ≥ σ σ 对所有σi'∈∑i成立). 持混合策略的前提是在均衡时两种策略的报酬会 相等,是预期支付最大化的推导结果. 2.案例分析 掷硬币

重复博弈博弈论课件.ppt

重复博弈博弈论课件.ppt
重 复 博 弈
重复博弈

动态博弈的类型

序贯博弈sequential game

每一个阶段的博弈结构是不同的,即从后一个决策结开 始的子博弈不同于从前一个决策结开始的子博弈。或者 说,同样结构的博弈只出现一次。 是指同样结构的博弈重复多次,其中的每次博弈称为 “阶段博弈”。如“囚徒困境”中小偷每次作案后判刑 释放后又作案。 分为有限次重复博弈与无限次重复博弈
H H 厂商1 M L 5, 5 6, 0 2,0
厂商2 M
L 0,2 0,2 1,1
0,6 3,3 2,0
触发策略可信的情况
博弈方1:第一次选H,如 果第一次结果为 (H,H),则第二次选择 M;否则采用P 博弈方2:第一次选H,如 果第一次结果为 (H,H),则第二次选择 M;否则采用Q
博弈方1 H M L P Q
5,5 6,0 2,0
重复两阶段三价博弈的等价博弈:如果 认为触发策略不可信,即不可信报复, 最佳选择为(M,M)
触发策略可信性问题



实际上,触发策略中的报复机制的可信性是一个很复 杂的问题,会受到相互预期等很多复杂因素的影响。 例如,未偏离的一方并不想报复偏离的一方,而偏离 的一方却因为害怕报复而采用L,结果心慈手软的未偏 离一方再次遭受损失,这种可能性的存在会使得报复 机制实施的可能性增加。 此外,考虑策略的制定者和执行者分离的情况,执行 者会严格执行决策者指令的情况等等。


在有限次重复博弈中,如果原博弈存在唯一的纯策略NE, 则有限次重复博弈的唯一的均衡解就是各博弈方在每阶段 中都采用原博弈的NE。 因为每个阶段NE都是SPNE,即不存在不可信的威胁和许 诺,因此重复博弈的解也是SPNE。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。



触发策略

两个最著名的触发策略:冷酷策略和礼尚往来策略。 触发策略包含着威胁和惩罚,但惩罚的力度有所不同。 冷酷策略:双方一开始的时候选择合作,然后继续选 择合作,知道有一方选择背叛,从此永远选择背叛。 即任何局中人的一次性不合作将触发永远不合作。 礼尚往来策略:开始的时候和冷酷策略一样,即双方 从合作开始,在以后的每个阶段,如果你的对手在最 近的一次或连续K次博弈中采取合作策略,则你继续 跟他合作;如果你的对手在上一阶段的博弈中采取背 叛策略,则你在下次的博弈中背叛他,或者连续K次 背叛他。
低价 高价
低价
企业甲 高价
3,3 1,6
6,1 5,5
有限次重复博弈的定义

有限次重复博弈:给定一个基本博弈G(可 以是静态博弈,也可以是动态博弈),重 复进行T次G,并且在每次重复G之前各博弈 方都能观察到以前博弈的结果,这样的博 弈过程称为“G的T次重复博弈”,记为 G(T)。而G则称为G(T)的“原博弈”。G(T) 中的每次重复称为G(T)的一个“阶段”。

在囚徒困境中,重复博弈是一种促使局中 人采用合作策略的机制。因为,局中人担 心一次不合作会招致未来合作机会的丧失。 如果未来合作的价值很大,超过采取背叛 策略所能获得的短期收益,则双方会出于 长远利益的考虑,形成非契约的默契,使 彼此都从默契的非契约合约中得到好处。
重复博弈产生“道德感”


有一群猴子被关在笼子里,从笼子上方垂下 一条绳子,绳子的末端栓着一个香蕉, 上端 连着一个机关,机关可以开启水源。猴子们 发现了香蕉,纷纷跳上去够这个香蕉,当猴 子够着香蕉时,相连的绳子带动了机关,于 是一盆水倒了下来,尽管够到香蕉的猴子吃 到了香蕉,但是大多数的猴子都被淋湿了。 这个过程重复着,猴子们发现,吃到香蕉的 猴子是少数,其余的猴子都被淋湿了。于是, 每当有猴子去以香蕉时,其它的猴子主动地 去撕咬那个猴子,久而久之,猴子们产生了 默契,再也没有猴子敢去取香蕉了。

有限次重复博弈的结果

由此表明,如果纳什均衡是唯一的,只要 博弈的重复次数有限,重致这个结果的原因是,当阶 段博弈有多个纳什均衡时,参与人可以使 用不同的纳什均衡惩罚第一阶段的不合作 行为或奖励第一阶段的合作行为。

第二节 囚徒困境的无限次重复
一、重复博弈的概念


重复博弈是一种特殊的动态博弈,它是指同样结 构的博弈重复多次。 其中的每一次博弈称为“阶段博弈”。 局中人可以根据先前双方的博弈行为,决定自己 下一阶段的策略选择。 三项基本特征:(1)阶段博弈之间没有“物质上” 的联系,也就是说,前一阶段的博弈不改变后一 阶段博弈的结构;(2)所有参与人都观测到博弈 过去的历史;(3)参与人的总支付是所有阶段博 弈支付的贴现值之和或加权平均值。
有限次重复博弈的结果


假如该企业之间的合作关系只有两次,博弈的结 果? 利用倒推法.在第二阶段中,双方都意识到这是最 后一次合作,即以后没有合作关系了,即没有损 失“2万”的代价了,因此,双方都会背叛合作以 获得1万元好处。
在第一阶段中,双方想到下个阶段对方会背叛自 己,因此想:自己在这个阶段背叛可能获得1万元 的好处,因此,双方在第一个阶段就都会采取低 价。博弈的结果和一次囚徒困境博弈的结果一样。

礼尚往来策略

惩罚一次的礼尚往来策略,叫做严格礼尚 往来策略:即你对我好我也对你好,你对 我坏我马上也对你坏,“以牙还牙”、 “针锋相对”。它“不记仇”。
礼尚往来策略的结果分析

假如在前面那个案例中,企业乙背叛了一 个星期后,突然又“改邪归正”,选择继 续合作,则选择合作的这个星期,利润只 有1万,因为此时,甲企业为了惩罚他的上 次背叛使用了低价策略,因此,这次背叛 的收益是1万(在背叛的那个星期获得的), 背叛的成本是损失了4万(在背叛后接下来 的一个星期发生的),那么他这次背叛是 否值得呢?

博弈重复无穷多次而不是有限次时,存在着完全 不同于一次博弈的子博弈精炼纳什均衡。 在任何博弈中,局中人会根据前一阶段双方是否 合作,决定自己下一阶段的策略是选择合作还是 背叛。——依存策略(或称之为相机策略)。 大多数依存策略是触发策略:即只要他的对手在 博弈中一直采取合作策略,则该局中人也会在博 弈中继续采取合作策略;但是,一旦对手在某一 个阶段采取背叛策略,将会触发该局中人在往后 的一段时期内采取不合作策略,甚至永远采取不 合作策略,从而对对手实施惩罚。
第六章 重复博弈和策略性行动
本章主要考察重复博弈是如何进行 的,如何计算重复博弈的支付,以及如 何寻找重复博弈的纳什均衡。
主要内容




1、囚徒困境的有限次重复 2、囚徒困境的无限次重复 3、重复次数不确定的情形 4、策略型行动的分类 5、承诺及其可信性 6、重复博弈的运用
为什么研究重复博弈

二、影响结果的主要因素
(1)重复次数。其重要性来自于参与人在短期利益 与长期利用之间的权衡。当博弈只进行一次时, 每个参与人可能只关心一次性的支付;但如果博 弈重复多次,参与人可能会为了长远利益而牺牲 眼前利益,从而选择不同的均衡策略。—这是重 复博弈分析给出的一个强有力的结果,它为现实 中观测到的许多合作行为和社会规范提供了解释。 (2)信息完备性。退一步讲,即便一个参与人的 支付函数(特征)不为其他参与人所知时,该参 与人可能有积极性建立一个“好声誉”以换取长 远利益。这一点或许可以解释为什么那些本质并 不好的人在相当长的时间内干好事。

第一节 囚徒困境的有限次重复


假如两个企业垄断了一种商品市场,他们之间的 博弈如图所示。假定开始的时候两家企业彼此合 作,双方都实行高价。假如一个星期后乙背叛合 作采取低价,他的利润将从5万增加到6万。但甲 企业看到后也将采取低价,从此双方的利润各为3 万。即乙企业在背叛的当周获得了1万利润的增加, 但往后的每个星期都以损失2万为代价。 企业乙 博弈的结果?

即使在不完全信息的情况下,如果博弈重复无穷 多次,均衡结果也可能大大不同于一次性博弈。
一种威胁策略,即使在一次博弈中是不可置信的, 在无限次重复博弈中却可能是值得置信的,因为 在后一种情况下,当事人考虑的所有未来收益的 贴现值之和,而不是一次性收益。如果施行威胁 带来的贴现值之和大于不施行威胁的贴现值之和, 威胁就是可置信的。
相关文档
最新文档