第八章 4 重复博弈和无名氏定理

合集下载

博弈论无名氏定理

博弈论无名氏定理引言：博弈论是研究决策制定和行为选择的数学模型，并在许多领域发挥重要作用。

在博弈论中，无名氏定理是一项非常重要的结论，它对于理解玩家之间的互动和找到最佳策略提供了指导。

本文将就博弈论无名氏定理展开详细阐述。

一、博弈论基本概念博弈论研究决策者在决策制定中的相互影响，主要分为以下几个基本概念：1.玩家：参与博弈的个体或群体，每位玩家需根据自身利益作出决策。

2.策略：玩家在博弈中可采取的行动方案。

每位玩家需从多个策略中选择一个。

3.收益：玩家基于自己的策略和其他玩家的策略，所获得的结果。

4.纳什均衡：指在博弈中各个玩家选择了最佳策略，无法通过单方面改变策略来获得更好结果。

二、无名氏定理的内容无名氏定理由约翰·纳什于1950年提出，它在博弈论中具有重要意义。

该定理的内容可以概括为：在任意有限次博弈中，至少存在一个纳什均衡。

也就是说，在博弈中，无论玩家有多少，无论策略有多复杂，至少会有一个纳什均衡点。

这意味着无论其他玩家选择什么策略，玩家都无法通过单方面改变自己的策略来获得更好的结果。

三、无名氏定理的证明无名氏定理的证明过程比较复杂，需要运用到博弈论中的一些数学理论和方法。

在证明过程中，通常会利用到反证法、最优响应函数、偏微分方程等工具。

具体证明过程如下：1.反证法：首先假设不存在纳什均衡点，即每个玩家都能通过改变自己的策略来获得更好结果。

2.最优响应函数：然后，分别对每个玩家的每种策略进行最优响应函数的计算，即找到玩家最好的策略选项。

3.偏微分方程：最后，通过偏微分方程等工具推导，得出存在纳什均衡的结论，从而证明无名氏定理。

四、无名氏定理的应用无名氏定理在经济学、政治学、生物学等多个领域有广泛的应用。

它可以帮助人们理解玩家之间的互动关系，揭示各种冲突与合作的策略选择。

无名氏定理的应用举例：1.在市场竞争中，企业可以利用无名氏定理来确定最佳的定价策略，以获取最大利润。

2.在国际关系中，国家之间的冲突和合作可以通过博弈论无名氏定理来研究和解析。

4 重复博弈

1
2 3 1.5 1.5
混合策略
(A , B)
1.5
3
企业2得益
(1 , 4) (1.5 , 3) (3 , 3)
(2.5 , 2.5)
(2 , 2) (3 , 1.5) (4 , 1)
企业1得益
图各均衡策略的平均得益
三次重复
企业1

无条件策略=〉有条件策略

第一阶段选A; 如果第一阶段的结果是（A,A），则第二阶段选A; 如果第一阶段的结果是（A,B），则第二阶段选B; 第三阶段无条件选B。第一阶段选A; 第二阶段无条件选B; 如果第一阶段的结果是（A,A），则第三阶段选A; 如果第一阶段的结果是（B,A），则第三阶段选B。
平均得益=（99*3+4+1）/101=2.99
触发策略
博弈方之间首先试探合作，一旦发现对方不合作则也用不合作相报复，利用后续阶段博弈的制约作用达成均衡的策略。
trigger strategies 冷酷战略 grim strategies
问：能否用两次重复构造冷酷策略？如（A,A）、（A,B）
企业2

三次重复
如何证明为一条子博弈完美NE路径？
（A , A ）、（A , B ）、（B , A ）
平均得益=（3+1+4）/3=2.67
A A 企业1 B 企业2 B
3，3 4，1
1，4 0，0
推广到任意有限次
重复101次
企业1的策略是前99次都选A，但一旦发现哪次出现结果 (A,B)，则改选并坚持B到底，最后二次与三次重复的后两次一样；企业2的策略是前99次都选A，但一旦发现哪次出现结果 (B,A)，则改选并坚持B到底，最后二次与三次重复的后两次一样。

重复博弈讲义

瑞典皇家科学院2005年10月10日在斯德哥尔摩宣布，将2005年的诺贝尔经济学奖授予以色列希伯莱大学的罗伯特·奥曼（Robert J.Aumann）和美国马里兰大学的托马斯·谢林（Thomas C.Schelling），以表彰他们“通过博弈论分析，促进了人们对冲突和合作的理解”。为此，他们获得1000万瑞典克朗（约合130万美元）的奖金。从约翰·纳什开始，在博弈论这座金矿中淘到诺贝尔经济学奖的有数十位之多，与博弈论领域相关的基础研究，据说已经是第五次折桂了。瑞典皇家科学院在授奖时说，罗伯特·奥曼第一次对重复博弈进行了全面正式分析。他们认为，“重复博弈的理论促进了我们对合作先决条件的理解，阐明了包括商业协会、犯罪组织在内的许多机构进行磋商和国际贸易协定的理由”。
商厂
两市场博弈的重复博弈（重复两次）
A 厂商2B A 3，3 1，4 1 B 4，1 0，0
两市场博弈
(A,B)+(A,B) OR (B,A)+(B,A)——(1,4)OR(4,1) 连续两次采用混合策略——(2,2) (A,B)+(B,A) OR (B,A)+(A,B)——(2.5,2.5)轮
商厂
不同策略组合、均衡得益图示
厂商2
A 厂商2B
得益
A 3，3 1，4 1 B 4，1 0，0
两市场博弈
(1,4)
(1.5,3) (3,3)
(2.5,2.5)
(2,2) (3,1.5) (4,1)
厂商1得益
轮换策略结果比较好，但与最佳结果（A，A）还有一定差距。本博弈不能实现最佳结果原因，是因为这个两次重复博弈没有运用触发策略的条件或者说机会。
博弈方的一个策略就是在每次重复时, 针对其前面阶段所有可能的情况如何进行行动的计划。 (2) 重复博弈的子博弈重复博弈的子博弈就是从某个阶段（除第一阶段以外）开始，包括此后所有阶段的重复博弈部分。重复博弈的子博弈要么仍然是重复博弈，只是重复的次数较少，要么就是原博弈。 (3) 重复博弈的均衡路径重复博弈的路径是由每个阶段博弈方的行动组合串联而成的。而且对应前一阶段的每一种结果，下一阶段都有原博弈全部策略组合数那么多种可能的结果，如原博弈有m种策略组合，那么重复两次就有m2条博弈路径，重复T次就有mT条博弈路径，因此在重博弈中，博弈方在重复博弈中的策略空间要远远大于在每个阶段博弈中的策略空间，重复博弈的路径数往往是很大的，常常可以产生一些意想不到的均衡路径。

重复博弈.ppt

中科院博弈论课程-乔晗
4
重复博弈的三个特征
1. 阶段博弈之间没有物理上的联系，即前一阶段博弈的结果不改变后一阶段的结构（比如剪刀、石头、布的重复）；
2. 所有参与人观察到博弈过去的历史； 3. 参与人的总支付（报酬）是所有阶段博弈支付的
贴现值之和（局中人关心的不仅是现阶段收益，还包括未来收益，因而有积极性做出不同于一次性博弈的最优选择）。
{合作，不合作} {不合作，合作} {不合作，不合作} • 三阶段博弈？ • N阶段博弈？
中科院博弈论课程-乔晗
7
重复博弈的策略空间
• 单阶段博弈：局中人的选择无法建立在对手前阶段行动的基础上
• 重复博弈：过去的行动历史可以被观察到，局中人的选择可以建立在其他局中人过去行动的基础上
如：过去你欺骗我，这次我不与你合作
中科院博弈论课程-乔晗
动；（针锋相对）
• trigger strategies: 从合作开始，一直到有一方不合作，然后永远选择不合作。（触发）
……
局中人1
合作不合作
局中人2
合作
不合作
3,3
-1,4
4，-1
0，0
中科院博弈论课程-乔晗
9
重复博弈的策略空间
• 重复博弈中，局中人可以选择的策略空间变大 • 新策略的出现使得局中人可以对对方过去的行动
1 L1 2
R1 2
L2 1
R2 1
L2 1
R2 1
L1
R1
L1
R1
L1
R1
L1
R1
2
2
2
2
2
2
2
2
L2
R2 L2

博弈论课件4重复博弈

5 1 1 2 5
如果博弈方2采用H，总得益现值为：
1
V 4 V
因此当 1/ 4时，此触发策略纳什均衡策略。
4.3.2 惟一纯策略纳什均衡的无限次重复博弈
无限次重复博弈民间定理（弗里德曼，1971）
设G是一个完全信息的静态博弈，用(e1, , en )记G的纳什均衡得益，
用(x , 1
重复囚徒困境悖论和连锁店悖论
☻理论和实践的直觉矛盾，现实中寡头之间的价格战问题并不十分普遍，重复次数较大的实验研究的结果（重复200 次的囚徒困境）
☻泽尔腾(1978)，“连锁店悖论” （导论中的先来后到博弈），实际中对开头几个市场的进入者不计代价的打击
☻问题的症结与蜈蚣博弈类似，在于在较多阶段的动态博弈中逆推归纳法的适用性T t1t 1t1 2 23
t1
t 1
t
4.1.2 基本概念
平均得益：如果一常数作为重复博弈（有限次重复博弈或
无限次重复博弈）各个阶段的得益，能产生与得益序列
1， 2,相同的现在值，则称为1， 2,的平均得益
无限次重复博弈时
2 (1 )
1 2 23
4.2.3 多个纯策略纳什均衡的有限次重复博弈
三价博弈的两次重复博弈
+1
厂H 商M
1L
H
5，5 6，0 2，0
厂商2
M 0，6 3，3 2，0
L
0，2 0，2 1，1
+3
厂H 商M 1L
H
8，8 7，1 3，1
厂商2 M
1，7 4，4 3，1
L
1，3 1，3 2，2
三价博弈
两次重复三价博弈的等价博弈
有限次重复博弈民间定理

重复博弈

未经许可，请勿传播2重复博弈•一次动态博弈也称为“序贯博弈”。

•重复博弈：指同样结构的博弈重复多次，其中的每次博弈称为“阶段博弈”。

如囚徒困境。

•重复博弈的特征：✓1、阶段博弈之间没有“物质上”的联系，即前一阶段的博弈不改变后一阶段的结构；✓2、所有参与人都观测到博弈过去的历史；✓3、参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均均值。

贴现因子：下一期的一单位支付在这一期的价值。

注意：在每个阶段，参与人可同时行动，也可不同时行动。

未经许可，请勿传播5重复博弈因为其他参与人过去的历史总是可以观测到的，因此，一个参与人可以使自己在某个阶段博弈的选择依赖于其他参与人过去的行动历史，因此，参与人在重复博弈中的战略空间远远大于和复杂于每一阶段的战略空间，这意味着，重复博弈可能带来一些“额外”的均衡结果。

影响重复博弈均衡结果的主要因素是博弈重复的次数和信息的完备性。

博弈重复的次数的重要性来源于参与人在短期利益和长远利益之间的权衡。

信息的完备性：当一个参与人的支付函数不为其他参与人知道时，该参与人可能有积极性建立一个“好”的声誉以换取长远利益。

重复博弈博弈论课件.ppt

重复博弈
重复博弈

动态博弈的类型

序贯博弈sequential game

每一个阶段的博弈结构是不同的，即从后一个决策结开始的子博弈不同于从前一个决策结开始的子博弈。或者说，同样结构的博弈只出现一次。是指同样结构的博弈重复多次，其中的每次博弈称为 “阶段博弈”。如“囚徒困境”中小偷每次作案后判刑释放后又作案。分为有限次重复博弈与无限次重复博弈
H H 厂商1 M L 5， 5 6， 0 2，0
厂商2 M
L 0，2 0，2 1，1
0，6 3，3 2，0
触发策略可信的情况
博弈方1:第一次选H,如果第一次结果为 (H,H),则第二次选择 M;否则采用P 博弈方2:第一次选H,如果第一次结果为 (H,H),则第二次选择 M;否则采用Q
博弈方1 H M L P Q
5，5 6，0 2，0
重复两阶段三价博弈的等价博弈:如果认为触发策略不可信，即不可信报复, 最佳选择为(M,M)
触发策略可信性问题

实际上,触发策略中的报复机制的可信性是一个很复杂的问题,会受到相互预期等很多复杂因素的影响。例如，未偏离的一方并不想报复偏离的一方，而偏离的一方却因为害怕报复而采用L,结果心慈手软的未偏离一方再次遭受损失，这种可能性的存在会使得报复机制实施的可能性增加。此外，考虑策略的制定者和执行者分离的情况，执行者会严格执行决策者指令的情况等等。

在有限次重复博弈中，如果原博弈存在唯一的纯策略NE，则有限次重复博弈的唯一的均衡解就是各博弈方在每阶段中都采用原博弈的NE。因为每个阶段NE都是SPNE，即不存在不可信的威胁和许诺，因此重复博弈的解也是SPNE。

重复博弈

博弈论与信息经济学
1,重复博弈的定义及特征定义: (1) 定义: 重复博弈指同样结构的博弈重复多次, 其中每次博弈称为阶段博弈. (2) 特征: A,阶段博弈之间没有"物质"上的联系,即前一阶段的博弈不改变后一阶段博弈的结构; B,所有参与人都观测到博弈过去的历史; C,参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均值.
(A,B)+(A,B) OR (B,A)+(B,A)——(1,4)(4,1) 连续两次采用混合策略——(2,2) (A,B)+(B,A) OR (B,A)+(A,B)——(2.2,2.5)轮换策略一次纯策略+一次混合策略——(1.5,3)(3,1.5)
厂商2 得益
(1,4)
(1.5,3)
厂商2 厂商
π 1, 2 , 相同的现在值,则称π 为π 1, 2 , 的平均得益 π π
有限次重复博弈不一定考虑贴现因素无限次重复博弈必须考虑贴现问题π = (1 δ )∑ δ t 1π t
t =1 ∞
2010年7月15日3时11分
经济管理学院曹正勇
ห้องสมุดไป่ตู้
博弈论与信息经济学
定理1 (3)定理1
中得益的T 平均每阶段得益等于原博弈G中的得益. 在G中得益的T倍,平均每阶段得益等于原博弈G中的得益.
2010年7月15日3时11分经济管理学院曹正勇
博弈论与信息经济学
例2
2010年7月15日3时11分经济管理学院曹正勇
博弈论与信息经济学
3,无限次重复博弈 (1)特征无限次重复博弈的特征是不存在可作为最后一阶段的最后一次重复. 阶段的最后一次重复. (2)分析无限次重复博弈的难点一是普通的逆推归纳法无法直接运用; 一是普通的逆推归纳法无法直接运用; 二是在无限次重复中, 二是在无限次重复中,各博弈方的各阶段得益的总和常常是趋向无穷大的, 总和常常是趋向无穷大的,在分析无限次重复博弈时该用什么作判断依据. 时该用什么作判断依据.

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

由此我们证明，如果>=1/6，冷酷战略是无限次重复博弈的一个子博弈精炼纳什均衡，帕雷托最优（沉默，沉默）是每一个阶段的均衡结果，囚徒走出了一次性博弈的困境。
实际上，也存在一些其它的战略使得当事人之间实现合作。
大众定理：存在无穷多对战略，可以成为无限次重复博弈的平衡点，并同时实现双方的合作。
这样，我们就证明了冷酷战略是一个纳什均衡。接下来的任务是证明这个纳什均衡是一个子博弈精炼纳什均衡，即在每一个子博弈上构成纳什均衡。因为博弈重复无限次，从任何一个阶段开始的子博弈与这个博弈的结构相同。在冷酷战略纳什下，子博弈可以划分为两类： A类，没有任何人曾经坦白；B类，至少一人曾经坦白。我们已经证明，冷酷战略在A类子博弈中构成纳什均衡。在B类，根据冷酷战略，参与人只是重复单阶段博弈的纳什均衡，它自然也是整个子博弈的纳什均衡。
0 (6) 2 (6) 1 (1) 2 (1)
或
6 1 1 1
1/ 6
解上述条件得：
1/ 6
1 / 6 ，择首先坦白。
现在假定j首先选择了坦白，那么i是否有积极性坚持冷酷战略惩罚j的不合作行为呢？假定j坚持冷酷战略，j一旦坦白将永远坦白；如果i坚持冷酷战略，他随后每阶段的支付是－ 6，但如果他选择任何其它战略，他在任何阶段的支付不会大于－6，因此不论为多少，i有积极性坚持冷酷战略。类似的，假定j坚持冷酷战略，即使i自己首先选择了坦白，坚持冷酷战略也是最优的。
在这个博弈中，在位者选择斗争的惟一原因是希望斗争能起到一种威摄力量，使进入者不敢进入。但在有限次重复博弈中，斗争并不是一个值得置信的威胁。该博弈的惟一子博弈精炼均衡是：在位者在每一个市场上都选择默许，进入者在每一个市场上选择进入。
囚徒困境与市场进入阻挠博弈类似。只要博弈重复的次数是有限的，最后阶段的惟一纳什均衡就是两个囚徒都选择坦白；逆向归纳法意味着“总是坦白”是惟一的子博弈精炼均衡。上述结果表明：只要博弈的重复次数是有限的，重复本身并不改变囚徒困境的结果。
其他的战略
恕道战略恶棍战略流氓战略傻客战略
重复博弈和无名氏定理
动态博弈的另一种特殊但是非常重要的类型就是所谓的“重复博弈”。顾名思义，重复博弈是指同样结构的博弈重复多次，其中的每次博弈称为“阶段博弈”
有限次重复博弈：连锁店悖论
考虑市场进入阻挠博弈
在位者默许斗争
进入者
进入不进入
40，50 0，300
-10，0 0，300
现在假定同样的市场有20个（可以理解为在位者有20个连锁店），进入者每次进入一个市场，博弈就变成了20次重复博弈。假定进入者先进入第一个市场，在位者应该如何反应？大家可能会猜想，尽管从一个市场上看，在位者的最优选择是默认，但因为现在有20个市场要保护，为了阻止进入者进入其他19个市场，在位者应该选择斗争。但这个猜想是不正确的。
我们首先证明冷酷战略是一个纳什均衡。假定囚徒j选择上述冷酷战略，冷酷战略是不是囚徒 i的最优战略呢？令为贴现因子（假定两人的贴现因子相同）。如果i在博弈的某个阶段首先选择了坦白，他在该阶段得到0单位的支付。但他的这种行为将触发囚徒j的“永远坦白”的惩罚，因此，i随后每个阶段的支付都是-6。因此如果给定下列条件满足，假设j没有选择坦白，i将不会选择坦白：
无限次重复博弈和无名氏定理
当博弈重复无穷次而不是有限次时，存在着完全不同于一次博弈的子博弈精炼均衡。
考虑囚徒困境博弈，假定博弈重复无穷次。
囚徒2的战略囚徒1的战略沉默招认
沉默
招认
-1，-1
0，－9
-9，0
-6，-6
考虑下列所谓的“冷酷战略”：（1）开始选择沉默；（2）选择沉默直到有一方选择坦白，然后永远选择坦白。根据这个战略，一旦一个囚徒在某个阶段博弈中选择了坦白，之后他将永远选择坦白。