博弈论-第五章

合集下载

博弈论 第五章(Chapter 5)

博弈论 第五章(Chapter 5)
Perfect information

A game of perfect information is one in which at each node, the player whose turn it is to move knows which node she is at (and how she got there).
* q1
c
2
* and q2
c
4
Firm 1’s profit is 1 ( c)2 , and firm 2’s profit is 8
1 16
( c)2 .
By contrast, in the unique Nash equilibrium of
Cournot’s (simultaneous-move) game under the same assumptions, each firm produces 1 ( c) units of output 3 2 and obtains the profit 1 ( c) .Thus firm 1 produces 9 more output and obtains more profit in the subgame perfect equilibrium of the sequential game, and firm 2 produces less output and obtains less profit.
Lecture 5 Sequential Games and Backward Induction
Zhenfa Xie Department of PE, SE, XMU
A Game: Cash in A Hat

第五章有限理性和进化博弈ppt课件

第五章有限理性和进化博弈ppt课件
❖ 演化博弈现在正逐渐被广泛应用于社会经济学领域。
在整堂课的教学中,刘教师总是让学 生带着 问题来 学习, 而问题 的设置 具有一 定的梯 度,由 浅入深 ,所提 出的问 题也很 明确
演化博弈的关注内容
❖ 演化博弈强调经济变迁过程中以个体多样 性变异机制和偏好选择机制为代表的种群 研究。
❖ 它探讨种群选择的策略是否获得最佳的收 益,并消除任何小的突变群体的扰动。
5.3 复制动态和进化稳定性: 两人对称博弈
5.3.1 签协议博弈的复制动态和进化稳定策略 5.3.2一般两人对称博弈复制动态和进化稳定
策略 5.3.3 协调博弈的复制动态和进化稳定博弈
在整堂课的教学中,刘教师总是让学 生带着 问题来 学习, 而问题 的设置 具有一 定的梯 度,由 浅入深 ,所提 出的问 题也很 明确
在整堂课的教学中,刘教师总是让学 生带着 问题来 学习, 而问题 的设置 具有一 定的梯 度,由 浅入深 ,所提 出的问 题也很 明确
❖ 在演化博弈中,认为参与人的选择行为可以 依据前人的经验、学习与模仿他人行为、受 遗传因素的决定等。
❖ 因而演化博弈把具有主观选择行为的参与人 扩展为包括动物、植物在内的有机体,动植 物参与者的支付可被理解为为某种适应程度。
经济学与生物学
经济学 企业 最优化 策略 利润 扩张 倒闭 创新
生物学 物种(或个体)
适应 基因 适应性(fitness) 繁殖 灭绝 变异
在整堂课的教学中,刘教师总是让学 生带着 问题来 学习, 而问题 的设置 具有一 定的梯 度,由 浅入深 ,所提 出的问 题也很 明确
自然界中的博弈
❖ 吸血蝙蝠夜间去大型哺乳动物那里吸血,有些个 体偶尔会空腹而归,此时吸饱血的个体就会吐出 胃内的血液喂给饥饿的个体,尽管它们之间并没 有直接血缘关系。

第五章 重复博弈完全且非完美信息动态博弈(博弈论张醒洲)PPT课件

第五章 重复博弈完全且非完美信息动态博弈(博弈论张醒洲)PPT课件
1. 参与人1和2同时从各自的可行集A1和A2中选择a1和a2;
2. 收益情况为ui(a1,a2,a3*(a1,a2),a4*(a1,a2)),i=1,2;
假定(a1*,a2*)为以上同时行动博弈唯一的纳什均衡,我们称 (a1*,a2*,a3*(a1*,a2*),a4*(a1*,a2*))为这一两阶段博弈的子博弈完 美结果。
2009-03-16
张醒洲,大连
7
两阶段囚徒Байду номын сангаас境
• 得到 a3*(a1,a2),a4*(a1,a2)
– 根据第一阶段的行动a1和 a2 ,预测第二阶段参与人的反应; – 请注意,在囚徒困境博弈中存在唯一的纳什均衡,因此参与人
的反应独立于其在第一阶段的行动。
• 计算 ui(a1,a2,a3*(a1,a2),a4*(a1,a2)),i=1,2
• 两阶段囚徒困境博弈是“2×2 两人同时行动”博弈的一 个特殊例子。在这个博弈中,我们在上一节利用后向归纳 法的思路分析了“子博弈完美结果”,具体见2.2.1。
• 子博弈完美结果
如果参与人1和2预测到参与人3和4在第二阶段的行动将由 (a3*(a1,a2),a4*(a1,a2))给出,则参与人1和2在第一阶段的问题就可 以用以下的同时行动博弈表示:
参与人 1
参与人 2
L2
L1
1, 1
R1
0, 5
R2 5, 0 4, 4
图 2.3.1
• 让两个参与人进行两次囚徒困境博弈,观察第二次博弈 开始之前第一次博弈的结果,并假设整个过程博弈的总 收益等于两阶段博弈收益的简单相加 (即不考虑贴现因 素) 。
2009-03-16
张醒洲,大连
6
“2 × 2 ×2” 博弈和子博弈完美结果

博弈论最全完整-讲解课件

博弈论最全完整-讲解课件

• 王则柯、李杰编著,《博弈论教程》,中国人民大学 出版社,2004年版。
• 艾里克.拉斯缪森(Eric Rasmusen)著,《博弈与信 息:博弈论概论》,北京大学出版社,2003年版。
• 因内思·马可-斯达德勒,J.大卫·佩雷斯-卡斯特里罗著, 《信息经济学引论:激励与合约》,上海财经大学出版 社,2004年版。
学习交流PPT
17
约翰· 海萨尼 1920年 生于美 国
约翰·纳什 1928年生于美国
莱因哈 德·泽尔 腾, 1930 年生于 德国
学习交流PPT
18
1996年诺贝尔经济学奖获得者
英国人詹姆斯·莫里斯 (James A. Mirrlees)和 美国人威廉-维克瑞(William Vickrey)
托马斯·谢林
学习交流PPT
24
导论
三、博弈论的基本类型
学习交流PPT
25
合作博弈与非合作博弈
• 合作博弈(cooperative game) 达成有约束力的协议(binding
agreement),强调团体理性,强调效率、公 正、公平 • 非合作博弈(non-cooperative game)
强调个人理性,其结果可能有效率,也可能 无效率。
三位美国学者乔治-阿克尔洛夫(George A. Akerlof)、迈克尔-斯彭斯(A. Michael Spence)和约瑟夫-斯蒂格利茨(Joseph E. Stiglitz)
获奖理由:在“对充满不对称信息市场进行分 析”领域做出了重要贡献。
学习交流PPT
21
迈克尔·斯彭斯 1948年生于美国的 新泽西,1972年获 美国哈佛大学博士 头衔,现兼任美国 哈佛和斯坦福两所
• 也就是说,需要的是对这样的情况下该选什么 的预期的收敛。这一使得参与者能够成功合作 的共同预期的策略被称为焦点。心有灵犀一点 通。

经济博弈论基第五章动态贝叶斯博弈

经济博弈论基第五章动态贝叶斯博弈

s i
i
(B)Pi ( i
a
h i
)
是局中人
i观测到
a
h
和最优策略
i
s
*
i
(

)
后,使
用贝叶斯法则从先验概P率i (i i ) 得到的。
六、不完美信息博弈的完美贝叶斯纳什均衡
例1:完美贝叶斯纳什均衡是{M, U; p=1}
1
L (1, 3)
U
M [p] R [1-p]
2
1、Milgrom-Roberts (1982)垄断限价模型
传统解释的问题:价格作为一种承诺是不可置信的,因 为无论垄断者现在索取什么价格,一旦其他企业进入,垄断者 就会改变价格,因此,靠低价格是不可阻止进入的。
Milgrom-Roberts (1982)提出的解释:垄断限价可能反映 了这样一个事实,即其他企业不知道垄断者的生产成本,垄断 者试图用低价格来告诉其他企业自己是低成本,进入是无利可 图的。
一、KMRW声誉模型
如果下列条件满足,囚徒2将选择X=不坦白: 11p-14≥5p-12 p ≥1/3
即如果囚徒1属于非理性的概率不小于1/3,囚 徒2将在第一阶段选择“不坦白”(合作)。
一、KMRW声誉模型
下面考虑博弈重复三次(T=3)的情况:
给定p≥1/3,如果理性囚徒1和囚徒2在第一阶段都选择 “不坦白”(合作),那么第二、三阶段的均衡路径与前表相 同(X=不坦白),总的均衡路径如下表:
2、博弈顺序
(1)自然首先选择囚徒1的类型,囚徒1知道自己的类型, 囚徒2只知道囚徒1属于理性的概率是1-p,非理性的概率是p;
(2)2个囚徒进行第一阶段的博弈;
(3)观察到第一阶段博弈结果后,进行第二阶段博弈; 观察到第二阶段博弈结果后,进行第三阶段博弈;如此等等。

复旦大学经济博弈论课件--经济博弈论5

复旦大学经济博弈论课件--经济博弈论5

dt
22
x(1x)1 (6x)
dx/dt 1/6
1
x
2019/9/10
课件
22
5.3.5 蛙鸣博弈的复制动态 和进化稳定策略
动物进化竞争是生物多样性、复杂性的基本机制
蛙鸣博弈:
雄蛙2
鸣叫
不鸣
鸣叫 P-z, P-z m-z, 1-m 不鸣 1-m, m-z 0, 0
2019/9/10
课件
23

弈鹰
u2e x(5)(1x)227x
方鸽
u2d x0(1x)51x
1
u2yu2e(1y)u2d 1xy6xy
博弈方2


v1 c, v2 c 22
0, v2
v1 ,0
v1 , v2 22
2019/9/10
课件
32
非对称鹰鸽博弈博弈方1群体复制动态相位图
2019/9/10
课件
6
5.2.1 协调博弈的有限博弈方快速学习模型
模型:
博弈方2
A
B
A 50,50 49,0 B 0,49 60,60
协调博弈
1
2 5
4
3
2019/9/10
课件
7
反应、策略调整规则推导
采A 用 的得x益 i(t): 50[2xi(t)]49 采B 用 的得x益 i(t): 0[2xi(t)]60 当 xi(t)22/6时 1 ,A 采 ;用 x当 i(t)22/6时 1 ,B 采用
2019/9/10
课件
8
最优反应动态模拟:初次博弈1个A
A
B
BA
B
B
B
A
A

第五章 不完全信息静态博弈及应用 《博弈论与经济》 PPT课件


p(t-iti ) p(ti )
p(t-i ti )
p(t-i ti
)
pi
t-i
▪ 它描写了参与人i依据自己的类型 ti 对其余局中人类型 t-i 的推断或信
念。
▪ 以下用
G T1, T2,, Tn; A1, A2,, An; u1, u2,, un; P1, P2,, Pn
弈模型。
表示贝叶斯博
因而局中i人的策略是定义在局中人的信息集 上,Ti 取值于行动集合
的映射A:i
si : Ti Ai


si (ti ) ai , ti Ti , ai Ai
▪ 局中人的条件期望 支付函数
▪ 由于局中人i的支付函数 ui ui (a1, a2 ,, an ; t1, t2 ,, tn ) 是随机的,因而需 用期望支付作为决策的依据。对给定的其余局中人的策略组合
参与人2关于参与人1的最优反应策略为 s2(t) (C, D)
▪ 2. 求参与人1关于参与人2的最优反应策略。
▪ 对于固定的 s2(t),参与人1选择 s1 a1 ,最大化自己的期望支付,即
求解最大化问题

max u1(a1, s2 (t1),t1) (1- )u1(a1, s2(t2 ),t2) a1
己以及对手的支付值,因为支付还依赖于对手的成本是H还是L。而局 中人对于对手的这一私人信息还不了解,这样当然无法选择出对自己 有利的策略。为解决这个问题,海萨尼提出了解决的方法—海萨尼转 换。
▪ 海萨尼转换
▪ 1.海萨尼从不完全信息模型的特征入手,引入一个概念,类
型: ti Ti , i 1,2,, n 。Ti 称为局中人的类型空间或类型集合,
▪ 故 : (C, (C, D)) 是贝叶斯纳什均衡。

博弈论-哈佛大学-第五节


Acquiesce Fight
Incumbent
1
In
ø
Out
Spend
Save
Fight 2
1
Acquiesce
Spend 1 Save
Challenger
ø
In
Out
Incumbent
Acquiesce
Fight
Challenger Hit Back
Back out
Extensive Games w/ Perfect Info
(1, 2)
• In a strategic game, NE rationale is that in steady state, each player’s experience playing the game leads her belief about the other players’ actions to be correct.
– The strategic setting – Two-round, 3 candidate closed rule game – Two-round, n-candidate closed rule game – Infinite-round, 3 candidate closed rule game – Open-rule games – Endogenizing the rules
• Terminal History: (In, Acquiesce), (In, Fight), and (Out)
• Player Function: P(ø) = challenger , P(In) = incumbent
• Preferences for the Players:

博弈论第五章


• 假定连锁店有高成本、低成本两种情况,就单期博弈看,
面对新厂商进入,高成本厂商最佳反应为容忍,低成本 厂商最佳反应为斗争,那么高成本厂商在博弈的前期阶 段选择斗争,仍是可信的威胁。
有限次重复博弈的民间定理
厂商2 厂商 A 厂 A 商 1 B 3,3 4,1 B 1,4 0,0
• 个体理性得益 个体理性得益:不管其
无名氏定理举例
支付 甲 利己 利他

利己
利他
1, 1 0, 4
4, 0 3, 3
• 以“利己、利他”为例,其博弈中唯一的纳什
均衡为(利己,利己),两个局中人在此均衡 下所得支付都是1;所以,只要无穷重复博弈 中局中人可行的平均单期支付不小于1,这样 的支付就是一个可能的均衡支付。
• 无穷重复博弈能够导致帕累托改进。
重复博弈的基本特征
阶段博弈之间没有“物质上”的联系, 阶段博弈之间没有“物质上”的联系,即 前一阶段的博弈不改变后一阶段博弈的结 构; 所有博弈方都观测到博弈过去的历史; 所有博弈方都观测到博弈过去的历史; 博弈方的总支付是所有阶段博弈支付的贴 现值之和或加权平均值。 现值之和或加权平均值。
有限次重复博弈: 有限次重复博弈:连锁店悖论
进入者
在位者 ห้องสมุดไป่ตู้许 斗争
不进入 进入 在位者
策略式 进入者 进入 40,50
(0,300)
默许 斗争
-10,0 0,300
不进入
0,300
(40,50)
(-10,0)
Nash均衡为(进入,默许) Nash均衡为(进入,默许)和 均衡为 不进入,斗争) (不进入,斗争)但后者不是 子博弈完美Nash均衡。 均衡。 子博弈完美 均衡

博弈论(第五章)

谢富纪 2008年4月 27
3.复制动态和进化稳定性:两人对称博弈
鹰鸽博弈的复制动态和进化稳定策略:揭示人类社会或动 物世界发生战争或冲突的可能性及频率,国际关系中霸道 和软弱,侵略与反抗等共存的原因。

博 弈 鹰 方 1 鸽
博弈方2

(v-c)/2, (v- c)/2
v ,0 v/2,v/2
0,v
谢富纪 2008年4月 18
3.复制动态和进化稳定性:两人对称博弈
dx/dt
0
0.5
1
x
签协议博弈复制动态相位图
谢富纪 2008年4月
19
3.复制动态和进化稳定性:两人对称博弈
x*=0,x*=1是上述复制动态的两个稳定状态,其中 x*=1是对应大多数初始状态的稳定状态 。 有限理性的博弈方通过学习最终找到了本博弈比较有效 率的纳什均衡。 x*=1是进化稳定策略,而x*=0则不是。
B B
B
B A
B
A
A
A A
A A
A A
A A
初次博弈为1A的最优反应动态
谢富纪 2008年4月 11
2.最优反应动态
B
A
A
B
A
B
A
A
A
B
A
A
A
A
A
初次博弈为相邻2A的最优反应动态
谢富纪 2008年4月 12
2.最优反应动态
A B A A
A A
B
A
A
A
初次博弈为相邻3A的最优反应动态
谢富纪 2008年4月 13
第五章 有限理性和进化博弈
前面分析基本是假定博弈方具有完全的理性,但对 于现实中的决策者来说往往外很难满足这一要求,
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第五章重复博弈在这一章中,我们将围绕着人类的合作为什么产生这一命题来展开。

人与人之间合作生产的一个原因(从经济学的角度来看)是这种做法对于参与者双方而言是一个有利可图的事,为什么说明这一点我们将用到重复博弈。

另一个解释合作生产的方法就是引入信息不对称,在这种情况下,一个人装作是好人是有利可图的(因为好名声能够给他带来收益),这在信息不对称中会加以介绍。

第一节 重复博弈的定义及扩展式 给出重复博弈定义之前,需要做若干准备,一个准备就是由于重复博弈有可能会进行一个很长的时期,甚至是无穷期,因而必须考虑收益的时间价值。

相应的表达偏好的收益函数也需要给出一定的限制。

一、贴现因子与偏好明天的一元钱和今天的一元钱价值是不一样的,最简单的理由是今天的一元钱如果存入银行那么在明天会变成1+ r ,所以明天的一元钱只相当于今天的1/(1+ r )元钱,1/(1+ r )实际上就是经济学中的贴现率。

如果假设未来没有不确定性,定义11r δ=+,未来存在收益流R 1,R 2,R 3,…,那么这个未来收益流的贴现值之和就为V =211231t t t R R R R δδδ∞-=+++=∑L(5-1)其中(0,1)δ∈称为贴现因子(Discount factor)。

严格讲,贴现因子并不等于贴现率,但贴现因子与贴现率一定是同方向变动的。

例如,我们考虑一个特殊的重复博弈,其结束之前重复进行的次数是随机的,即在博弈的每一阶段完成之后,都要通过抛若干枚(加权的)硬币的方式来决定博弈是否结束,如果硬币朝上那么博弈结束(即概率为p),如果是其他情况,那么博弈继续(即概率为1 –p)。

如果下一阶段能得到的收益为R1,那么在当前阶段硬币未抛之前的价值(即贴现后的期望值)为(1 –p)R1/(1+ r);如果下两阶段能得到的收益为R2,在当前阶段硬币未抛之前的价值为(1 –p)2R2/(1+ r)2;下三阶段、四阶段等等的收益,照此类推。

令(1)/(1)δ=-+,则贴现因子既包含了货币的时p r间价值(贴现率1/(1+r)),又包含了博弈结束的可能性(1 –p)。

有了贴现因子的概念,我们就可以非常方便地比较无穷重复博弈中的不同收益值,从而对不同的策略进行优劣判断。

考虑一个无穷期的情况,如果t 期的收益为R t ,贴现因子为10δ>>,那么收益流的贴现值为211231t t t R R R R δδδ∞-=+++=∑L <2max max lim (1)1n n R R δδδδ→∞++++=-L ,其中R max = max{R 1, R 2, R 3, …},即R max 为收益流中的最大值。

同理,211231t t t R R R R δδδ∞-=+++=∑L >2min min lim (1)1n n R R δδδδ→∞++++=-L ,其中R min ={{R 1, R 2, R 3, …},即R min 为收益流中的最小值。

就这意味着,存在一个R 使得211231t t t R R R R δδδ∞-=+++=∑L =2lim (1)1n n R R δδδδ→∞++++=-L 。

R 就被称为收益流(R 1, R 2, R 3, …)的贴现平均收益值。

对于不同的策略,显然对应着不同的贴现平均收益值,通过比较平均收益值就能非常方便地知道什么是最优策略。

定义5.1 设贴现因子为δ,收益流(R 1, R 2, R 3, …)的贴现平均收益值为11(1)t tt R R δδ∞-==-∑。

由于平均收益值等于贴现值之和V 的(1)δ-倍,使贴现平均收益值最大化就等同于使贴现值之和最大化。

使用平均收益的另一个优点,就是我们可以利用它直接和阶段博弈中的收益进行比较,从而更容易知道哪一个策略要优。

对于重复博弈中参与者的偏好,同学们可能认为只要照搬前面的收益函数就可以了,而这实际上是不对的。

为什么呢?我们知道在确定性下,表达相同偏好的收益函数并不唯一,而是满足单调变换性,即只要f 是一个单调递增函数,那么(())f u g 与()u g 就表示同一个偏好。

但在(无穷)重复博弈中,整个博弈的收益函数为v = 122311()()()()t t t u s u s u s u s δδδ∞-=+++=∑L (5-2)它实际上为阶段博弈G 的收益函数u (s )的一个贴现和,我们把u (s )也称为伯努利收益函数,因为它也像v-N-M 偏好一样,要求u (s )必须满足线形变换,即只有当f = a + bu (s ),b >0时,f 和u 才表示相同的重复博弈偏好。

因为这时的v 实际上是预期收益函数。

容易证明,011t t Z δδ∞===-∑,t t p Z δ=,那么0,1t t p and p ≥=∑,即公式(5-2)中的系数(两边同时除以1δ-)实际上是一个概率分布。

因而,重复博弈与普通完全信息动态博弈的第二个不同点,就是收益函数()u g 为伯努利收益函数,而不是普通的收益函数。

二、重复博弈的定义及扩展式定义5.2对于策略式博弈G = {N , S , u },其中N ={1, 2,…, n }为参与者集合,S ={S 1 ,…, S n }为所有参与者的策略空间(策略实际上就是行动),u ={u 1, …, u n }为所有参与者的收益函数。

如果G 在时间中(或程序上)不断重复,并且在下一次博弈G 开始前,所有以前博弈的历史都被观察到,那么它构成的动态博弈就称之为重复博弈,G 就为重复博弈中的阶段博弈。

如果G 重复进行T 次,那么G(T)就表示重复进行T 次的有限重复博弈。

如果T = ∞,那么G(T)就表示无限重复博弈。

重复博弈G(T)中参与者i 的偏好用收益函数v i 表示,即12T-1T ()()()1ii i i i R v u s u s u s δδδ=+++=-L (5-3)其中u (s t )为伯努利收益函数,s t 为重复博弈t 阶段的行动组合(T > t >1),δ为贴现因子,R i 为参与者i 的贴现平均收益值,等于T11(1)()t t i t u s δδ-=-∑。

实际上对于重复博弈中的阶段博弈G ,其不仅可以为完全信息静态博弈,也可以是完全信息动态博弈;不仅可以为完全信息博弈,也可以为非完全信息博弈。

相应的重复博弈G(T)的扩展式定义如下:定义5.3重复博弈的扩展式为(T)Γ={N , H , P , v },其中N 表示参与者集合;H 为全历史集合,即G 中的行动组合序列的集合{(s 1, s 2, …, s T )},有时也把一个全历史称为一个结果路径;P 为每一个子历史h 下的参与者函数;v 则为参与者的v-N-M 收益函数,它满足(5-3)式。

为了叙述简便,G(T)与Γ(T)通常互换使用,都表示重复博弈。

第二节合作产生的原因为了更为形象,我们引入一个重复信用困境博弈,其阶段博弈G 的博弈矩阵如图5-1所示。

商人2诚信欺骗诚信商人1欺骗图5-1 信用困境一、问题的提出在什么样的情况下,(诚信,诚信)这样的结果有可能在信用困境中出现?如果是你,你会如何思考呢?实际上,运用逆推法,很容易证明,只要重复博弈进行的次数是有限的,那么(欺骗,欺骗)这样的结果会在每一个阶段博弈中出现。

上述的直观认识具有普遍意义。

如果阶段博弈G存在唯一纳什均衡,那么G(T)的子博弈完美均衡不过是纳什均衡重复T次,根本的原因是,如果最后一个子博弈G(1)存在唯一的纳什均衡,那么无论前面的历史如何都不会改变最后一个子博弈的均衡结果(反正过去的已经成为过去),因而G(T)的完美均衡不过是G的纳什均衡重复T次,这就有了命题5.1。

命题5.1如果阶段博弈G有唯一的纳什均衡,则对任意有限的T,重复博弈G(T)有唯一的子博弈完美均衡:即G的纳什均衡结果在每一个阶段重复进行。

利用命题5.1可知,无论信用困境重复多少次,只要不是无穷的,那么唯一的均衡结果只能是每一阶段都为(欺骗,欺骗),因而人类社会所谓的合作根本就不可能产生,人与人之间的诚信只能是一种奢望。

然而,现实并非如此,虽然人与人之间存在着利益冲突,但也确实存在着合作的行动和结果。

那么如何破解囚徒困境的诅咒呢?二、多重均衡的有限重复博弈为了在理论上容纳合作解,一个重要的方法就是在重复博弈中引入多重均衡。

现在,我们不妨考虑两阶段信用博弈,但对信用博弈做出修改,即阶段博弈G存在多个纳什均衡的情况,如图5-3所示,不妨称为信用困境1。

信用困境1与原信用困境不同的地方是人为构造了一个新的纳什均衡——(中,中),因而这个阶段博弈存在两个纳什均衡——(欺骗,欺骗)和(中,中)。

商人2诚信欺骗中商人1 诚信欺骗中图5-3 信用困境1与原信用困境一个重要的不同是合作解有可能成为子博弈完美均衡解在重复博弈中出现。

在证明之前,请同学们想一想(逆推法)。

我们首先从信用困境1的第二阶段开始。

在第二阶段,(欺骗,欺骗)和(中,中)都是阶段博弈G的纳什均衡,因而“策略组合”[(如果对手诚信,选择中;如果非诚信,选择欺骗),(如果对手诚信,选择中;如果非诚信,选择欺骗)]是子博弈G(1)的一个纳什均衡。

把这一均衡策略下对应的收益代入第一阶段,就得到图5-4。

商人2诚信欺骗中商人1 诚信欺骗中图5-4 信用困境1在图5-4中显然存在着3个纯纳什均衡:(欺骗,欺骗)、(中,中)和(诚信,诚信)。

根据逆推法,这3个纯纳什均衡都是信用困境1重复博弈的子博弈完美均衡解。

前两个完美均衡都简单地由两个阶段博弈的纳什均衡组成,但第三个纳什均衡结果却由一个非纳什均衡(第一阶段)和一个纳什均衡(第二阶段)组成。

它对应着的子博弈完美均衡结果为[(诚信,诚信),(中,中)],与前两个完美均衡本质不同的地方是合作解(诚信,诚信)在第一阶段中出现了。

实际上,如果G是一个有着多重纳什均衡的完全信息静态博弈,则重复博弈G(T)就可能存在子博弈完美均衡解,其中对每一个t<T,第t阶段的结果都不是G的纳什均衡。

这就从一个方面揭示了为什么合作解能够在重复博弈中出现,因为合作得到奖励,不合作受到惩罚,因而每一方都会加以遵守。

在人类社会中,这种奖励与惩罚机制可以通过国家意志——法律的形式得到实现,从而为人类的合作提供一种制度上的保障。

所谓的契约社会,就是通过法律、道德的形式来实现这种诚信(遵守契约规定)。

但是这种多重纳什均衡的处理仍然存在着令人不满意的地方,因为多重均衡意味着合作解并不一定产生,它的出现需要太多的条件,而且合作解对于干扰过于敏感(合作双方很容易产生不信任),相当不稳定,这表明子博弈完美均衡对可信性的要求并不严格。

例如,在推导子博弈完美均衡{[诚信,(中,欺骗)];[诚信,(中,欺骗)]}时,我们假定如果第1阶段的结果是(诚信,诚信),则参与者双方都预期(中,中)将是第2阶段的解,如果第1阶段出现了任何其他8种结果之一,第2阶段的结果就会是(欺骗,欺骗)。

相关文档
最新文档