子博弈完美均衡

博弈论(第三章)

劳资博弈
先由工会决定工资率，再由厂商决定雇用多少劳动力
max π (W , L ) = max [ R ( L ) − WL ]
L≥0 L≥0
max u[W , L* (W )]
W ≥0
R
斜率为W R(L) WL
W
W*
0
L (W )
厂商的反应函数
*
L
0
L* (W * )
L* (W )
u3 u2 u1 u0
第三节子博弈和子博弈完美（精炼）纳什均衡子博弈
A
借
B
不借 (1,0)
还 (2,2)
不还起诉
A 不起诉
(1,0)
(0,4)
第三节子博弈和子博弈完美（精炼）纳什均衡子博弈精炼纳什均衡
如果在一个完美信息的动态博弈中，各博弈方的策略构成的一个策略组合满足，在整个动态博弈及它的所有子博弈中都构成纳什均衡，那么这个策略组合称为该动态博弈的一个“子博弈精炼纳什均衡”。
无不确定性的委托人—代理人模型
1
委托不委托
代理人的选择
激励相容约束：
w(E)-E> w(S)-S w(E)> w(S)+E-S
2
接受
拒绝
[R(0),0]
2
努力偷懒
[R(0),0]
[R(E)-w(E), w(E)-E]
[R(S)-w(S), w(S)-S]
参与约束：
2
接受 [R(E)-w(E), w(E)-E]
第四节经典动态博弈模型
斯塔克博格模型（ Stackelberg）
和古诺模型双方产量均为2的产量，总量为4相比较，斯塔克博格模型中两厂商的产量较高。厂商1的得益4.5大于古诺模型中厂商1的得益4，但厂商2的得益 2.25小于国内模型中厂商2的得益4。 *在动态博弈中，有先动优势，也有后动优势。信息多了，可能结果好，但也可能结果更糟。

博弈论与信息经济学第六讲

讨价还价博弈的分析框架,对中国过去近二十年的改革以及改革中的各种现象及问题给出了一个综合性的理论分析)
《中国的外交：从策略到原则》
33
34
5+5δ+5δ2+ 、、、=5/(1-δ) 只要5/(1-δ)≥10,即δ≥0.5,不欺骗就是代理人
的最佳选择.
27
通过重复博弈,建立了信誉机制.信誉机制的核心在于:当事人为了合作带来的长远利益,愿意抵挡欺骗带来的一次性诱惑.
收益
欺骗
10单位 5/(1-δ)
A B
图—2 当前收益与未来收益
诚实
4
杜邦公司的震慑博弈
70年代，杜邦公司预测到全球未来对二氧化钛的需求达到50万吨以上；于是，为了垄断该市场，决定增加50万吨的生产能力，给予对手一个震慑；通过扩建现有工厂，新建13万吨的新厂，使得杜邦公司保持了二氧化钛的垄断地位达25年。
5
（二）工会与厂商的博弈
Leontief于1946年提出。此博弈的过程是：工会决定工资，厂商根据工资的高低决定雇佣人数。工会的效用是工资（W）和雇佣人数（L）的函数; 厂商只有一个目标，即利润（R）。厂商只有劳动成本W×L,厂商利润:
它可以得到x1=1。参与人1在T=3时1单位的收益等于T=2时的δ1，所以在T=2时参与人2出价X2=δ1 而参与人2在T=2时的（1-δ1）收益等于T=1时δ2（1-δ1）。这时，SPNE的结果是x=1-δ2（1-δ1）
问题： T=4时SPNE的结果是什么？ • 最终均衡值X*为（1-δ2）/（1-δ1δ2）
24
重复博弈：中东地区的集市
早期的制度学派一直未理解的事情：落后国家和地区为何一直在贫困中挣扎？既然有先进国家的榜样，而且资金与技术也非遥不可及，而这些国家地区似乎静止不动，与发达国家的距离越来越远。在中东的某些市场，有各种摊贩。品种繁多，但是其有几个特点：卖东西的规模小，买卖双方萍水相逢，多半是陌生人，成交前讨价还价占很长的时间。由于交易的产品品质参差不齐，每个东西的特色就可以夸大其词。在讨价还价中，欺瞒诈骗的伎俩得到淋漓发挥。双方都要在言词上胜过对方，品质倒在其次。所以在这些市场中，产品几十年、几百年都没有大的变化。新制度经济学把这种均衡称为“低度均衡”。

博弈论重点

博弈论期末复习要点纳什均衡（P52）：指的是参与人的这样一种策略组合，在该策略组合中，每个人的策略都是最优的，任何参与人单独改变策略都不会得到好处。

换句话说，如果在一个策略组合上，当所有其他人都不改变策略时，没有人会改变自己的策略。

完全信息（P34）：各个博弈方都完全了解所有博弈方在各种情况下的得益状况。

上策均衡（P41）：在某个博弈中，如果不管其他博弈方选择什么策略，一博弈方的某一个策略给他带来的收益始终高于其他策略，至少不低于其他策略。

帕累托上策均衡(P92):多个纳什均衡的某一个均衡策略给所有博弈方带来的得益都大于其他所有纳什均衡带来的得益，则各个博弈方都会倾向于此纳什均衡的策略，博弈能够实现帕累托效率。

聚点均衡（P97）：在多重纳什均衡博弈中，双方同时会选择一个聚点构成的纳什均衡。

合并均衡（P268）：具有完美信息的博弈方在博弈中，不管自己情况如何，都采取相同的市场均衡。

（在合并均衡中，完美信息博弈方的情况不同，并不会导致他们的行为不同，因此他们的行为不会给不完美信息的博弈方透露任何有用的消息）分开均衡（P268）：在不同情况下，完美信息博弈方所采取完全不同的市场策略。

（在分开均衡中，由于博弈方的情况不同，采取的不同的市场策略，因此完美信息博弈方的策略可以完全反映他的情况，因此能够给不完美信息博弈方的“判断”提供充分的信息和依据）海萨尼转换（P292）：将得益不了解转化为类型不了解的基础上，进一步将不完全信息静态博弈转化为完全但不完美信息动态博弈进行分析的思路。

完美信息（P34）：动态博弈中在轮到行为时对博弈的进程完全了解的博弈。

不完美信息（P34）：动态博弈中在轮到行为时对博弈的进程完全不了解的博弈。

混合策略（P72）：博弈方以一定的概率分布在可选策略中随机选择的决策方式。

一致性预测（P53）：如果所有博弈方都预测一个特定的博弈结果会出现，那么所有的博弈方都不会利用该预测或者这种预测能力，选择与预测结果不一致的策略。

第三章扩展型博弈论

假设甲先行动，商铺乙看到对方的选择后再决定是否进货，请求出子博弈完美纳什均衡？
如果甲先行动，但在博弈开始前商铺主乙有一次行动A的机会，请利用子博弈完美纳什均衡概念分析下述两种情况下的博弈结果
（1）A：商铺主乙逢人便说自己一定要进货，无论对方如何行动他都不会改变这个决定；
（2）A：商铺主乙与某个嘲笑他说大话的第三者丙打赌：如果自己到时不进货，向丙支付1500元；如果自己到时候进货，丙向他支付100元。并且，乙将这个赌局通知甲。
甲
甲
进乙
不进乙
进乙
不进乙
进
不进进
不进
进
不进进
不进
（-1000，-1000）（0，1000）（0，0）（-1000，-900）
（0，1100）（0，-1500）
（1000，0）
（1000，-1500）
作业：阅读“蜈蚣博弈”
拍卖人拿出一张10元钞票，请大家给这张
钞票开价，无底价，竞拍者可无限制的轮流叫价，每次叫价的增幅以5毛为单位，出价最高者可以得到这张10元钞票，但出价
即每阶段都选“不坦白”，A总得益贴现为
2 ( 2 ) ( 2 ) 2 .. . 2
当
1(6) 2 1 1
1 时，A选“不坦白”是最优的，即
当
1 5
时，A在没有人先选“坦白”时选“不坦白”是最优的，并且A 在之后每阶段都选“不坦白”是最优的选择。
乙
甲
坦白不坦白
坦白 -6，-6 -1，-8
最高和次高者都要向拍卖人支付出价数目的费用。
——苏比克拍卖模型
第四节
重复博弈
重复博弈
单次博弈重复进行构成的博弈过程，但博弈方的行为和博弈结果不一定是单次博弈的简单重复，其中，单次博弈可称为阶段博弈

15-斯塔克伯格模型

博弈论教学/双寡头垄断的斯塔克伯格模型出自MyKnowledgeBase< 博弈论教学Bread crumbs:教学工作 > 博弈论教学 > 博弈论教学/双寡头垄断的斯塔克伯格模型目录■1 一般模型■1.1 背景■1.2 博弈模型■1.3 后退归纳法分析■2 不变单位成本和线性逆需求函数的双寡头垄断斯塔克伯格模型■2.1 参数分析■2.2 后退归纳法求解最优反应函数■3 子博弈完美均衡的性质■4 模型推广■5 延伸阅读1 一般模型1.1 背景Stackelberg(1934)提出了一个双寡头垄断的动态博弈模型，其中领导者先行动，然后追随者行动。

1.个厂商生产同样的商品；厂商i的生产成本为；当总产量为时，产品出售价格为2.每个厂商的策略为产量；3.两个厂商相继行动：一个厂商选择它的产量，然后另一厂商在知道了第一个厂商已选择的产量后选择自己的产量。

1.2 博弈模型1.局中人：两个厂商2.终端历史：厂商所有产量序列的集合（非负数）3.局中人函数：，并且对所有的，有4.偏好：厂商关于终端历史的盈利是它的利润1.3 后退归纳法分析1.厂商1（博弈起点）的策略是一个产量；厂商2的策略是将厂商2的产量与厂商1的每个可能产量相关联的一个函数。

的任何产量，求厂商的产量为，厂商利润最大化的产量为的子博弈：在给定厂商2的策略下，求厂商1极大化自己利润的产量。

当厂商择产量，厂商2选择产量，则总产量为，价格为，厂的利润为。

利润达到最大值时的厂商1的产量记为给定了厂商1的均衡选择，厂商2的选择的产量为，那么子博弈完美均衡点为成本函数：线性逆需求函数：；, (，)的每一个产量，厂商有唯一的最优反应，为：，如果；，如果厂商2的策略（产量）是，厂商1的利润是：，厂商最大化时的产量，求导数得的最优产量为的利润为，厂商2的利润为注意区别古诺模型的同时行动：产量都为，利润都为二次成本函数的斯塔克伯格双寡头垄断博弈：，成立，以及对于所有的有，且对于有，求斯塔克伯格双寡头垄断博弈的子博弈完美均衡。

《经济博弈论》期末考试复习

《经济博弈论》期末考试复习资料第一章导论1.博弈的概念：博弈即一些个人、队组或其他组织，面对一定的环境条件，在一定的规则下，同时或先后，一次或多次，从各自允许选择的行为或策略中进行选择并加以实施，并从中各自取得相应结果的过程。

它包括四个要素：参与者，策略，次序和得益。

2.一个博弈的构成要素：博弈模型有下列要素：(1)博弈方。

即博弈中决策并承但结果的参与者．包括个人或组织等：(2)策略。

即博弈方决策、选择的内容，包括行为取舍、经济活动水平或多种行为的特定组合等。

各博弈方的策略选择范围称策略空间。

每个博弈方各选一个策略构成一个策略组合。

(3)进行博弈的次序：次序不同一般就是不同的博弈，即使博弈的其他方面都相同。

(4)得益。

各策略组合对应的各博弈方获得的数值结果，可以是经济利益，也可以是非经济利益折算的效用等。

3.合作博弈和非合作博弈的区别：合作博弈：允许存在有约束力协议的博弈；非合作博弈：不允许存在有约束力协议的博弈。

主要区别:人们的行为互相作用时，当事人能否达成一个具有约束力的协议。

假设博弈方是两个寡头企业，如果他们之间达成一个协议，联合最大化垄断利润，并且各自按这个协议生产，就是合作博弈。

如果达不成协议，或不遵守协议，每个企业都只选择自己的最优产品(价格)，则是非合作博弈。

合作博弈：团体理性(效率高，公正，公平)非合作博弈：个人理性，个人最优决策(可能有效率，可能无效率)4.完全理性和有限理性:完全理性：有完美的分析判断能力和不会犯选择行为的错误。

有限理性：博弈方的判断选择能力有缺陷。

区分两者的重要性在于如果决策者是有限理性的，那么他们的策略行为和博弈结果通常与在博弈方有完全理想假设的基础上的预测有很大差距，以完全理性为基础的博弈分析可能会失效。

所以不能简单地假设各博弈方都完全理性。

5.个体理性和集体理性：个体理性：以个体利益最大为目标；集体理性：追求集体利益最大化。

第一章课后题：2、4、56.设定一个博弈模型必须确定哪几个方面?设定一个博弈必须确定的方面包括:(1)博弈方，即博弈中进行决策并承担结果的参与者;(2)策略(空间)，即博弈方选择的内容，可以是方向、取舍选择，也可以是连续的数量水平等;(3)得益或得益函数，即博弈方行为、策略选择的相应后果、结果，必须是数量或者能够折算成数量;(4)博弈次序，即博弈方行为、选择的先后次序或者重复次数等;(5)信息结构，即博弈方相互对其他博弈方行为或最终利益的了解程度;(6)行为逻辑和理性程度，即博弈方是依据个体理性还是集体理性行为，以及理性的程度等。

博弈论考试

练习题一．判断题。

1．合作博弈就是博弈方采取相互合作态度的博弈。

2．如果一个博弈有两个纯策略纳什均衡，则一定还存在一个混合策略纳什均衡。

3．在动态博弈中，因为后行为的博弈方可以先观察到对方行为后再选择行动，因此总是有利的。

4．逆向归纳法并不能够排除所有不可置信的威胁。

5．有限次重复博弈的子博弈完美纳什均衡每次重复采用的都是原博弈的纳什均衡。

6．有限次重复博弈的子博弈完美纳什均衡的最后一次重复必定是原博弈的一个纳什均衡。

7．无限次重复古诺产量博弈不一定会出现合谋生产垄断产量的现象。

8．完全信息静态博弈中的混合策略可以被解释成不完全信息博弈的纯策略贝叶斯纳什均衡。

9．教育程度在劳动力市场招聘员工时受到重视的理由是，经济学已经证明教育对于提高劳动力素质有不可替代的作用。

10．子博弈是从一个单节点信息集开始的。

1．战略是行动的规则，它必须是完备的。

它要给出参与人在每一种可想象到的情况下的行动选择。

2．占优战略均衡和重复剔除占优均衡只要求每个参与人是理性的，并不要求每个参与人知道其他参与人是理性的（即不要求“理性”是共同知识）3．触发策略所构成的均衡都是子博弈完美纳什均衡。

4．逆向归纳法因为并不能够排除所有不可置信的威胁，从而导致了类似蜈蚣博弈的问题。

5．有限次重复博弈的子博弈完美纳什均衡每次重复采用的都是原博弈的纳什均衡。

6．信号传递和信息甄别可以看作是解决逆向选择问题的两种不同的（但相似）方法。

7．海萨尼指出完全信息情况下的混合战略均衡可以等同于不完全信息情况下纯战略均衡。

8．不完全信息古诺特模型中，低成本企业的产量比完全信息情况下低，而高成本企业的产量会比完全信息情况下高。

9．在Spence的劳动力市场模型中考虑到雇员选择教育程度，是因为经济学已经证明教育对于提高劳动力素质有不可替代的作用。

10．后续博弈一定是从一个单节点信息集开始的。

二．填空题（1．同一交易可能涉及多个委托代理模型的讨论，如雇主和雇员的关系中，如果雇主知道雇员的能力但不知道其努力水平，是（）问题；如果雇主和雇员本人签约时都不知道雇员的能力，而雇员在工作中发现了自己的能力（而雇主仍不知道），是（）问题；如果雇员一开始就知道自己的能力而雇主不知道，是（）问题；如果雇员一开始就知道自己的能力而雇主不知道，并且，如果雇员在签约之前就获得教育证书，是（）问题；相反，如果雇员在签约后根据工资合同要求去接受教育，是（）问题。

斯塔克伯格模型