博弈论初步

合集下载

博弈论初步

博弈论初步主要内容:博弈论的基本理论和运用博弈论进行决策的一般方法.教学目的:通过本章的教学, 要求学生了解博弈论的一般理论和运用博弈论进行决策的一般方法.目前, 博弈论发展的非常深入, 这里只是介绍一些初步知识. 在二十世纪四, 五十年代, 由冯·诺依曼(Von Neumann), 摩根斯坦(Morgenstern)把对策论, 运筹学引入经济学, 形成了最早的博弈论. 几十年来, 博弈论在经济学中发挥着越来越大的重要作用, 1994年的诺贝尔经济学奖就授予三位博弈论学家: 纳什(Nash), 泽尔腾(Selten)和海萨尼(Harsanyi).博弈论字面的意思是游戏策略, 及用类似游戏中解决问题的方法, 揭示解决社会, 经济及其他领域问题的策略, 对策, 因此有的还把博弈论译成对策论. 准确的说博弈论是在给定的条件下寻求最优策略, 这里给定的条件包含其他人的策略以及本人的决策对其他决策主体的影响.策略性活动在社会, 经济, 政治生活中大量存在, 也可以说, 整个社会, 经济, 政治生活都是博弈行为. 因此, 博弈论作为一种方法, 广泛的应用在经济, 政治, 军事, 外交中, 只是博弈论在经济学中应用的最广泛, 最成功. 如前面介绍过的古诺均衡, 就属于经济学中的博弈过程.第一节基本概念一, 博弈论1. 定义:博弈论是描述, 分析多人决策行为的一种决策理论, 是多个经济主体在相互影响下的多元决策, 决策的均衡结果取决于双方或多方的决策. 如下棋, 最后的结果就是由下棋双方你来我往轮流做出决策, 决策又相互影响, 相互作用而得出的结果.2. 博弈论与优化理论的异同点(1)相同点: 博弈论与优化理论都是在给定的条件下, 寻求最优决策的过程.(2)不同点:A, 优化理论可以看成是单人决策, 而博弈理论可以看成是多人决策.在优化理论的决策过程中, 影响结果的所有变量都控制在决策者自己手里; 而在博弈论的决策过程中, 影响结果的变量是由多个决策者操纵的. 如企业在追求成本最小化, 产量最大化, 利润最大化的过程中总是假定外部条件给定, 这实际上表明是一个优化问题, 因为除了给定的外部条件外, 剩下的因素都有决策者来控制, 从而决策者自己就能控制决策的结果; 如果外部条件不是给定的, 而是有其他主体参与的过程, 这时的决策过程就变成了一个博弈过程了, 因为决策的最终结果不但取决于决策者本身, 而且也取决于其他决策者的决策.B, 优化过程是一个确定的过程, 而博弈过程是确定性和不确定性的统一. 优化过程是一个确定的过程, 因为做出决策后, 确定的结果就出来了. 说博弈过程有确定性, 是因为决策各方的决策做出后, 每一方的收益就确定了; 说博弈过程有不确定性, 在于一方做出决策后, 影响结果的变量还有众多的其他决策者, 在不知道其他主体行为的情况下, 结果就不确定.例如: 在一次具体的战斗中, 一方是否发起进攻, 是一个决策. 如果发起进攻, 对方肯定有所反应, 客观上讲, 必然会有一个确定的结果存在, 这是确定性的表现. 但是最后的结果如何, 取决于对方如何应对, 所以在发起进攻时, 并不能知道结局是怎样的, 这就是不确定性的表现.如果一方发起进攻后, 另一方马上投降, 则战斗结束; 如果对方进行反攻, 从理论上来讲, 结果取决于双方实力以及双方收益的大小. 由此可以看出博弈的广泛存在, 在现实生活中做出任何决策时, 实际上都受到其他主体决策的影响并对我们做决策产生一定影响, 决策的结果除了由我们自己决定外还要受到其他决策主体的影响, 这实际上就是一个博弈过程.二, 参与者(PL A YER)参与博弈的利益主体叫做参与者. 在二人博弈中, 有两个参与者; 在三人博弈中, 有三个参与者; 在多人博弈中, 有多个参与者.三, 策略和策略空间1. 策略在给定条件博弈中, 参与者完整的一套行动计划叫做策略. 例如我国古代著名的谋略故事”田忌赛马”中, 国王的赛马计划是: 先出上等马, 再出中等马, 最后出下等马; 田忌的赛马计划是: 先出下等马, 再出上等马, 最后出中等马. 这里的赛马计划就是一套完整的行动计划, 也就是一个策略.2. 策略空间参与者可以选择的策略的全体就组成了策略空间. 例如在“田忌赛马”中, 共有六种行动方案可供选择: 上中下(先出上等马, 再出中等马, 最后出下等马), 上下中, 中上下, 中下上, 下上中, 下中上. 决策时田忌可以选择其中任何一个策略, 在故事中, 因为国王固定选择了上中下, 所以田忌选择了下上中, 从而赢得了比赛. 任何一人策略的改变都将使结果也随之改变, 比如国王选择了中下上, 而田忌选择了下上中, 则国王将赢得比赛.四, 报酬函数与报酬矩阵1. 报酬函数每一个参与博弈的参与者, 他的收益依附于各个参与者所出的策略, 这种收益与策略的依附关系就构成了报酬函数. 也就是说, 第i个参与者的收益取决于所有参与者的策略, 而不仅仅是自己的策略, 表示成数学式子就是: R i=R i(S1, S2, …Sn). 其中R i表示i个参与者的收益, Si (i=1, …n) 表示第i个参与者所出的策略.2. 报酬矩阵参与博弈的多个参与者的报酬可以用一个矩阵或框图表示, 这样的矩阵或框图就叫做报酬矩阵. 例如有甲乙两个供货商组成一个价格卡特尔, 双方都有选择遵守约定价格或者违反约定价格的权利. 报酬矩阵如下图所示:乙守约违约守约8, 86, 10甲违约10, 67, 7图8-1矩阵中每组数字中的前一个数字表示甲的收益, 后一个数字表示乙的收益. 当甲守约时, 乙如果守约, 收益为8, 乙如果违约, 收益为10; 当甲违约时, 乙如果守约, 收益为6, 乙如果违约, 收益为7. 所以, 当甲守约时, 乙会选择违约(10>8); 当甲违约时, 乙也会选择违约(7>6). 反之不管乙如何选择, 甲都会选择违约, 最终的结果是双方都选择违约. 报酬矩阵改变, 就会影响到双方的决策. 例如双方的报酬矩阵变成下图所示:乙守约违约守约12, 12 2, 10甲违约10, 2 -4, -4图8-2此时双方可能都选择守约, 因为当甲守约时, 乙会选择守约(12>10); 当甲违约时, 乙也会选择守约(2>-4). 反之不管乙如何选择, 甲都会选择守约, 最终的结果是双方都选择守约.博弈过程参与者的决策行为要受到博弈规则的影响, 即博弈规则的变化会改变报酬矩阵中的报酬值. 比如在图8-1中, 由于卡特尔中的每一个供货商都追求自身利益的最大化, 并且没有措施来保证遵守价格约定, 表面上可能都信誓旦旦的承诺守约, 但是实际中双方会违约.如果卡特尔追求整体利益的最大化, 并且由于历史, 政治, 制度, 惩罚等措施来保证遵守价格约定, 双方就可能和平共处, 遵守价格约定. 在历次中东战争中, 由于民族宗教原因, OPEC石油的产量和价格都得到了严格的执行.五, 均衡及博弈的解当博弈的所有参与者都不想改换策略时, 所达到的稳定状态叫做均衡, 均衡的结果叫做博弈的解.比如图8-1中甲乙两个供货商组成的卡特尔. 不管甲如何选择, 乙必然选择违约, 同样不论乙如何选择, 甲必然选择违约. 最终双方都选择了违约, 并且只要给定的条件不变, 双方就都不会改变策略, 结果非常稳定, 达成均衡.在这个均衡中, 不管甲如何选择, 乙都不会改变策略, 同样无论乙如何选择, 甲也不会改变策略, 这种均衡就叫做占优均衡. 这种无论对方如何决策, 自己总是会选择的策略叫做占优策略, 由双方的占优策略所达成的均衡叫做占优均衡.再比如, 在学校中, 学生平时学习可能是非常努力也可能是非常懒散; 老师可能把考试题出的很难, 也可能出的很容易. 从博弈论的角度, 这里的老师和学生就构成了一个博弈, 双方的报酬矩阵如下:老师出考题难易努力90, 85100, 90学生学习懒散50, 6090, 70图8-3由于老师出难题比出容易题要花费更多的时间和精力, 所以收益较低, 从而无论学生平时努力程度如何, 老师一定选择出容易的题; 由于学生只要努力学习就会取得更好的成绩, 所以无论老师所出考题难度如何, 学生一定会选择努力学习, 这同样构成一个占优均衡.经常遇到的还有一种均衡, 是有条件的均衡, 叫做纳什均衡. 简单的说就是敌变我变, 敌不变我亦不变. 在后面第二节中将详细介绍纳什均衡.六, 囚犯两难困境(p risoners’d ilemma)囚犯两难困境是博弈论中一个著名的例子, 讲的是甲乙两名嫌疑犯作案后被警察抓住, 分别被关在不同的屋子里受审, 双方不能互通消息, 每名嫌疑犯都面临坦白和不坦白两种选择. 警察告诉他们: 在两人都坦白的情况下, 各判刑10年; 在两人都不坦白的情况下, 各判刑3年; 在一人坦白另一人不坦白的情况下, 坦白的一方会被从轻处罚, 只被判刑1年, 不坦白的一方则被重判15年. 可以根据坦白后是否会受到制裁两种情况来讨论最终的均衡结果.1、坦白后不会受到制裁时的情况此时, 双方收益矩阵如下:乙不坦白坦白不坦白-3, -5-15, -1 甲坦白-1, -15-10, -10图8-4如图, 在乙不坦白的情况下, 如果甲坦白, 甲会被从轻处罚, 只被判刑1年, 乙被重判15年; 如果甲也不坦白, 由于证据不足, 甲乙都只会被判刑3年. 在乙坦白的情况下, 如果甲也坦白, 甲乙会被判刑10年; 如果甲不坦白, 乙会被从轻处罚, 只被判刑1年, 甲则被重判15年.可见, 在乙不坦白的情况下, 甲最好是坦白, 从而可以被从轻处罚; 在乙坦白的情况下, 因为被判刑10年总比15年要好, 甲最好也是坦白, 所以甲会选择坦白.同理, 无论甲如何选择, 乙的最好选择也是坦白. 结果双方都选择坦白, 都被判刑10年. 可见, 我国公安机关”坦白从宽, 抗拒从严“的心理攻势在大多数情况下都是可以奏效的. 囚犯两难困境说明个人的理性可能导致集体结果的不妙. 在现实社会中, 人人都追求完美反而可能会导致社会变得很糟糕.2. 坦白后会受到制裁时的情况博弈论的一个重要思想就是规则改变报酬矩阵, 改变了报酬矩阵就会影响到行为方式. 如果犯罪组织有着严格的惩罚制度, 任何一个罪犯坦白后, 不论坦白的事情严重与否, 犯罪组织一定会杀人灭口, 并且总是能迅速做到. 这个规则将改变报酬矩阵, 新的报酬矩阵如下图所示:乙不坦白坦白不坦白-3, -3-15, -∝甲坦白-∝, -15-∝, -∝图8-5由于坦白后将被灭口, 所以收益将是-∝. 在乙不坦白的情况下, 甲最好是不坦白; 在乙坦白的情况下, 因为被判刑15年总比死去要好, 甲最好也是不坦白, 所以甲会选择不坦白. 同理, 无论甲如何选择, 乙的最好选择也是不坦白. 结果双方都选择不坦白, 各自被判刑3年.。

第五章博弈论初步

第二节
重复博弈与序列博弈
重复博弈——对局可以重复多次，那么，博弈结局是否会改变，对参与者来说，是否存在一种最优策略？序列博弈——参与者对策略的选择有先后顺序，那么，先行者是否存在先行优势？
2018/12/11
重复博弈的最优策略
美国Michigen大学教授R.爱克塞罗曾进行计算机程序竞赛，来决定什么策略最优 14位程序设计者中有经济学家，计算机专家，政治家，数学家等，总共进行5次循环赛，12万次对局获胜的策略是最简单的策略——“以牙还牙”（tit－for－tat）
女回顾性别之战，男以2/3 的概率选看足球，1/3 足球电影看电影，女方相反。 2，1 0，0 足球如果双方自顾自，则结果男是随机的，以男方为例，电影 0，0 1，2 选足球的概率为p，(1-p) 看电影的概率，其期望得益：2(1/3)p+1(2/3)(1-p) =2/3
2018/12/11
2018/12/11
投资800后的收益矩阵
垄断者商战潜进入 -200，600 在进入者不进入 0，2200 容忍 900，300
0，2200
2018/12/11
第四节几种相关的策略
“保证最低价格”的策略条款——本商店保证所销售的商品为本市最低价。顾客在本商店购买这种商品之后一个月内，如在本市任何其他商店发现更低的价格，本商品将退还差额，并另行补偿差额的10％思考：这种策略的效果是什么？如果你是另一家商店的老板，你将如何定价？
2018/12/11
价格竞争的策略选择
B
10元
10元 A 15元
15元
100，80 50，170
180，30 150，120

第10章博弈论初步

二、博弈树（扩展式博弈模型) 容忍
（原价）
(1,4)
①竞争者和垄断者的策略组合为(进入、容忍) ②竞争者得到支付为1 垄断者得到支付4.
垄断者
进入
竞争者 ●
抵抗
（降价）
(-2, 2)
竞争者得到支付为-2 垄断者得到支付为2.
容忍不进入垄断者抵抗
（预先实施降价威胁）
(原价)
(0, 5)
(0, 3)
将p2=1-p1，q2=1-q1 代入，并整理得:
E甲 =p1(7-10q1)+5q1+2
甲的混合策略（ p1 , p2 ）分别选择上和下
7 10 q1 0时，E甲最大时，p1 1
为使甲的期望值E甲最大
7 10 q1 0时，E甲最大时，p1 [0,1]
7 10 q1 0时，E甲最大时，p1 0
优化决策之二：
– 当经济主体之间利益存在冲突时，一方所获得的利益不仅取决于自己所采取的行动，而且取决于其他主体采取的行动或对自己行动的反应。 – 博弈论研究利益存在冲突时相互“斗智”的形式和结果。
寡头优化问题：寡头的决策必须考虑其他竞争寡头之间的反应。在竞争性局势下如何采取行动，如何作出有利于己方的决策。博弈论是在给定的条件下寻求最优策略，这里给定的条件包含其他人的策略以及
本人的决策对其他决策主体的影响。例如，下棋，军备竞赛，广告战，价格战。
博弈论：是研究在策略性环境中，如何进行策略决策和采取策略行为的科学。
应用：被广泛地应用于政治、经济、军事、外交领域。研究理性的决策者之间冲突及合作的问题。
一、博弈的基本要素
①博弈的参与人
构成要素
②一组可选择的策略 ③获得的报酬（支付），报酬可为正或负

第8章博弈论初步

微观经济学
三、博弈的要素
第八章博弈论初步
博弈的要素包括参与人、行动、信息、策略、支付、博弈的要素包括参与人、行动、信息、策略、支付、结果和均衡，其中，参与人、结果和均衡，其中，参与人、策略和支付是描述一个博弈所需要的最基本的要素，参与人、弈所需要的最基本的要素，参与人、行动和结果统称为博弈规则。博弈规则。参与人：指一个博弈中的决策主体。 ①参与人：指一个博弈中的决策主体。在囚徒困境模型中，有两个参与人，囚徒A”和囚徒B”。模型中，有两个参与人，即“囚徒和“囚徒。行动：是参与人在博弈的某个时点的决策变量。 ②行动：是参与人在博弈的某个时点的决策变量。在囚徒困境模型中，囚徒A、都只有两种行动可供选在囚徒困境模型中，囚徒、B都只有两种行动可供选坦白” 抵赖” 择，即“坦白”和“抵赖”。
微观经济学
第八章博弈论初步猜硬币方正面盖硬币方正面反面 -1，1 1，-1 反面 1，-1 -1，1
我们以“得益” 表示没有输赢，用得益1表示赢，我们以“得益”0表示没有输赢，用得益1表示赢，用-1 表示输。如果真以该游戏赌输蠃，表示输。如果真以该游戏赌输蠃，这种表示方法是非常合理由于一方的赢必定是另一方的输，的。由于一方的赢必定是另一方的输，因此得益矩阵中每个元素的两数字之和都等于0 元素的两数字之和都等于0，因而该博弈中两博弈方之间的利益也是完全对立的，利益也是完全对立的，是一个零和博弈。
微观经济学
第八章博弈论初步
20世纪年代以后，经济学家开始强调个世纪70年代以后世纪年代以后，人理性。人理性。 2005年10月10日 2005年10月10日，瑞典皇家科学院在瑞典首都斯德哥尔摩的皇家科学院议事厅宣布，首都斯德哥尔摩的皇家科学院议事厅宣布，将 2005年诺贝尔经济学奖授予有以色列和美国双 2005年诺贝尔经济学奖授予有以色列和美国双重国籍的罗伯特·奥曼和美国人托马斯·谢林，重国籍的罗伯特·奥曼和美国人托马斯·谢林，以表彰他们通过博弈理论的分析增强世人对合作与冲突的理解。突的理解。

第10章博弈论初步

三、寡头厂商的共谋及其特征
厂商 X
A：不降价
厂商 Y
B：降价
A：不降价
10
10
6
12
B：降价
12
6
8
8
特征：共谋的不稳定性
移动-联通价格战
四、重复博弈
重复博弈的策略原则： “以牙还牙”，所谓 “善有善报，恶有恶报”，而且“无论善恶，立即得报”。
“以牙还牙”
（一）无限次重复博弈

（存在囚徒合作均衡）
4. 如果投食量为原来的一半，并且把投食口移到踏板附。小猪大猪都会拼命地去抢踩踏板。等待者不得食，多劳可以多得。寓意：对于企业激励机制的设计，应该采用减量移位的方法。奖励不能人人有份，而应该直接针对个人（如业务按比例提成）。既节约了成本，又消除了“搭便车” 现象，从而实现有效的激励。
（二）纳什均衡
问题：1.该博弈中小猪和大猪的占优策略分别是什么？博弈的占优策略均衡是什么？并说明原因。 2.如果投食量仅为原来的一半，结果怎么变化？ 3. 如果投食量为原来的二倍，结果怎么变化？ 4. 如果投食量为原来的一半，并且把投食口移到踏板附近，结果又怎么变化？
1.小猪的占优策略是选择“搭便车”策略，即舒舒服服地等在食槽边；大猪的占优策略是为一点残羹不知疲倦地奔忙与食槽与踏板之间。该博弈的占优策略均衡是（不踩踏板，踩踏板）。原因：小猪踩踏板将一无所获，不踩踏板反而能吃上食物。因此，对小猪而言，无论大猪是否踩踏板，不踩踏板总是最好的选择。对于大猪而言，明知小猪不会去踩动踏板的，自己亲自去踩踏板总Байду номын сангаас不踩好，所以只好亲力而为。
（一）占优策略均衡

囚徒困境博弈

10章博弈论

解题思路:由Q=QS+Qb, QS=49p, p=300-Q得出支配型厂商的需求曲线,再对总收益求导得出MRb; 令MRb=MCb,得出利润最大化产量、价格；行业产量=Qb+49p
寡头厂商之间的博弈：博弈论初步 •博弈论的基本概念及其分类； •完全信息静态博弈 •完全信息的动态博弈；
•不完全信息的静态博弈
思考：子博弈精练纳什均衡的特点是什么？
•参与人在前一个阶段的选择将决定随后的子博弈的结构。
•子博弈精练纳什均衡：若A开发，B
不开发；若A不开发，B开发；若A 先开发，B的子博弈已就被排除了， B只能选择不开发。
思考：为什么序列博弈中，厂商成功的关键是先行者优势？ •在房地产开发的案例中纳什均衡是：若A开发，B不开发；若A不开发，B 开发；

博弈的分类1 ——合作博弈与非合作博弈
如果各博弈方能达成某种有约束力的契约或默契，以选择共同的策略，此种博弈就是合作博弈。反之，就属于非合作博弈。企业之间的联合定价就属于合作博弈，而经常挑起价格战的企业采用的便主要是非合作博弈。在合作博弈中往往包含着非合作博弈，如石油输出国组织是合作博弈的产物，但其中为了各自利益的超产和争吵又属于非合作博弈。
在智猪博弈中，先剔除小猪的严格劣战略“按按纽”，在这一选择后的新博弈中，小猪只有“等待”一个战略，而大猪有两个战略可供选择。再剔除新博弈中大猪的严格劣战略“等待”，从而达到重复剔除的占优战略均衡：小猪等待，大猪按按纽。
严格劣战略是指无论其他参与者采取什么战略，该战略是对自己严格不利的战略。
实行承诺后的阻止市场进入博弈
垄断者
商战默许 900，300
潜在进入进不进入入者

第七章博弈论初步

博弈的类型
game) 2,从局中人行动的先后顺序可划分为静态博弈(Static game)和动从局中人行动的先后顺序可划分为静态博弈( 态博弈( game).静态博弈是指在博弈中, ).静态博弈是指在博弈中态博弈(dynamic game).静态博弈是指在博弈中,局中人同时选择行动或虽非同时行动但后行动者并不知道先行动者采取了什么具体行动.动态博弈是指局中人的行动有先后顺序, 体行动.动态博弈是指局中人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动. 观察到先行动者所选择的行动. 3,从局中人是否具有有关其他参与人(对手)的特征,策略空间及支从局中人是否具有有关其他参与人(对手)的特征, 付函数方面的知识的角度, 划分为完全信息博弈( 付函数方面的知识的角度,可划分为完全信息博弈(game of complete information)和不完全信息博弈(game of ) 不完全信息博弈( incomplete information). )

河南科技学院
西方经济学西方经济学微观第7章 3
博弈论的基本概念
③支付(Payoff)(支付函数与支付矩阵):博弈论中,可用数值支付( )(支付函数与支付矩阵):博弈论中, )(支付函数与支付矩阵):博弈论中表示各局中人从博弈中所获得的收益或效用水平, 表示各局中人从博弈中所获得的收益或效用水平,该数值称为支付. 支付依赖于各个局中人所作出的策略, 支付依赖于各个局中人所作出的策略,这种收益与策略的依赖关系构成了支付函数支付函数. 构成了支付函数. 参与博弈的多个局中人的收益可用一个矩阵或框图表示, 参与博弈的多个局中人的收益可用一个矩阵或框图表示,这种矩阵或框图叫做收益矩阵收益矩阵. 或框图叫做收益矩阵. 除此之外,博弈论中的基本概念还包括:行动,信息,结果和均衡. 除此之外,博弈论中的基本概念还包括:行动,信息,结果和均衡. 它们关系是:行动是局中人的决策变量; 它们关系是:行动是局中人的决策变量;信息是局中人在进行博弈时有关其他局中人的特征和行动的知识; 时有关其他局中人的特征和行动的知识;结果是博弈分析者感兴趣的要素的集合;均衡是所有局中人的最优策略或行动的集合. 的要素的集合;均衡是所有局中人的最优策略或行动的集合.

博弈论初步

第一节博弈论和策略行为
• 博弈分类 1. 根据参与人的数量，可分为二人博弈和多人博弈； 2. 根据参与人拥有的策略的数量，可分为有限博弈和无限博弈； 3. 根据参与人的支付情况，可分为零和博弈和非零和博弈； 4. 根据参与人是否能够达成有效的协议，可分为合作博弈和非合作博弈； 5. 根据参与人是否了解有关博弈的所有信息，可分为完全信息博弈和不完全信息博弈； 6. 根据参与人在策略的实施上是否具有“同时性”，可分为静态博弈（或同时博弈）和动态博弈（或序贯博弈）。
西方经济学
博弈论初步
第一节博弈论和策略行为
• 博弈论是研究在策略性环境中如何进行策略性决策和采取策略性行动的科学。 1. 策略性环境是指，每个人进行的决策和采取的行动都会对其他人产生显著的影响。 2. 策略性决策和策略性行动是指，每个人要根据其他人的可能反应来决定自己的决策和行动。 • 寡头市场是典型的策略性环境，博弈论显然是分析寡头厂商行为的一个恰当工具。
第二节完全信息静态博弈：纯策略均衡
2、广告大战
•
纳什均衡（做广告，做广告）不仅对参与人不是最优的，且对整个社会也不是最优的。
第二节完全信息静态博弈：纯策略均衡
• 重复博弈：走出囚犯困境 1. 动态博弈是一种反复进行的博弈，重复博弈是动态博弈的一种特殊情况，在重复博弈中，一个结构相同的博弈被重复多次。 2. 在结成合作联盟的寡头厂商之间都采取一种以牙还牙的惩罚和报复策略，即博弈中任何参与者的一次性不合作将引起其他参与者的永远不合作，从而导致所有参与人的收益减少。因此，所有参与者具有维持合作的积极性。 3. 在以牙还牙策略的前提下，对于无限期重复博弈而言，博弈均衡解是（合作、合作）。
第二节完全信息静态博弈：纯策略均衡

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

12
3、结论
二、囚徒困境与占优策略
在“囚徒困境”中，（坦白、坦白）并不是博弈者共同的最优结果，因为每个人都被判8年徒刑。他们共同的最优结果应该是各判1年，但却是无法实现的。于是乎，“囚徒困境”常常被经济学家作为一个经典案例用来说明：
❖自利的个人理性行为并没有导致
一个集体的最佳结果，亦即个人理性与集体理性之间存
波宁 8年
克鲁德 8年
波宁自由
波宁 20年
克鲁德自由
波宁 1年
保持沉默克鲁德
20年
克鲁德 1 年
10
二、囚徒困境与占优策略
2、占优策略（Dominant Strategy)P452
囚犯的唯一目标，是要实现自身利益最大化，每一囚犯都考虑到了对方可能做出的选择，并据此选择了自己的占优策略。在囚犯的两难处境中，坦白是占优策略。因为无论对方作什么选择，坦白能使自己利益最大化。
20
2.做广告的博弈
PEPSI的决策
不做广告
做广告
不做广告
PEPSI得到2 亿美元利润
PEPSI得到8 亿美元利润
Cocacola 决策
COCA得到10 亿美元利润
COCA得到6 亿美元利润
PEPSI得到0 亿美元利润
托马斯·谢林
罗伯特·奥曼
2005年的诺贝尔经济学奖授予以色列希伯莱大学的罗伯特·奥曼（Robert J.Aumann）和美国马里兰大学的托马斯·谢林（Thomas C.Schelling），以表彰他们“通过博弈论分析，促进了人们对冲突和合作的理解”。
5
2. 博弈三要素：
（1）博弈参加者。假定参与者机智而理性。（2）行动或策略空间。参与者知道自己及对手策略选择范围，并了解各种策略之间因果关系。（3）有可评价优劣高下的决策行为结果，并用数字表示这类结果，称之为支付（Payoff)。
加林山得到 1600美元利润
加林山得到 1500美元利润
怡宝的决
策
怡宝得到1600 美元利润
怡宝得到2000 美元利润
加林山得到 2000美元利润
加林山得到 1800美元利润
（合）低产量：
30加仑
怡宝得到1500 美元利润
怡宝得到1800 美元利润
15
伊拉克的决策
高产量
低产量
伊拉克得到
伊拉克得到
高产量
400亿美元
300亿美元
伊朗的决
策
伊朗得到 400亿美元
伊朗得到 600亿美元
伊拉克得到 600亿美元
伊拉克得到 500亿美元
低产量伊朗得到
300亿美元
伊朗得到 500亿美元
16
本例子说明，为什么卡特尔组织维
持垄断利润有困难，难以长期持续。
➢如果两企业选择合作，通过特定的产量与价格组合来使其利润最大化，就能使它们得到较好的结果。
➢但每个寡头都有违背协议的激励——强烈的“利己”动机（理性人），博弈的结果是双方都选择高产量。这是最坏的结果，因为两企业的利润总和最小。
17
三、应用：囚徒困境的其他例子 1.军备竞赛的博弈 2.做广告的博弈
18
1.军备竞赛的博弈
美国的决策
军备
裁军
军备
苏联的决
策
美国处于危险之中
苏联处于危险之中
6
举例：
厂商：加林山厂商：怡宝
高产量： 40加仑
低产量： 30加仑
高产量：40加仑 1600，1600 2000，1500
低产量：30加仑 1500，2000 1800，1800
➢博弈参与者：厂商加林山和厂商怡宝； ➢策略空间：各自可以选择两种策略，“高产量”或“低产量”。 ➢支付：数字表示双方在不同策略选择组合下得到的支付，较大数字代表较大利益。
美国安全并强大
美国处于危险之中并弱苏联安全小并强大
美国安全
裁军苏联处于危险
之中并弱小
苏联安全
19
美苏争霸的囚徒困境博弈说明：
➢ 在一个弱肉强食的世界上，如果美国采取裁军，但是前苏联扩军，美国会有丧失主权的危险；反之则反之。
➢ 这就造成了和囚徒困境一样的争霸博弈均衡：双方都扩军，双方都处在危险中。
第五讲（产品）市场结构理论
第五节博弈论初步
一、博奕论的定义及要素二、囚徒困境与占优策略
1、囚徒困境；2、占优策略；3、结论
三、应用：囚徒困境的其他例子四、纳什均衡五、人们有时能合作的原因
1
一、博奕论的定义及要素
1、博弈论（Game Theory）的定义：又称对策论，研究各博弈参与人在
不同策略情况下如何行事。
7
二、囚徒困境与占优策略
1、囚徒困境 2、占优策略 3、结论
8
二、囚徒困境与占优策略
1、囚徒困境（Prisoners’ Dilemma）
囚徒困境：两个被捕的囚徒之间的
一种特殊“博弈”，说明为什么甚至在合作对双方都有利时，保持合
作也是困难的。
9
“囚徒困境” 举例
波宁的决定
坦白
保持沉默
坦白
克鲁德的决定
(即博弈参与人考虑到了每个其他参与人的行动和反应后做出策略性
决策的情形。)
2
寡头市场上企业之间高度依存，这一基本特点使得每个寡头必须选择一定的策略。
寡头在做决策之前必须考虑竞争对手对于自己策略的反应，并相应制定其决策。
因此，寡头的决策行为拥有许多博弈的特点。
3
博弈论简介
博弈论由棋奕、桥牌、战争中借用而来，博弈论被应用于政治、外交、军事、经济等研究领域。
11
波宁的决策克鲁德的决策
坦白
保持沉默
坦白
每人8年
波宁20年克鲁德自由
保持沉默
波宁自由克鲁德20年
每人1年
占优策略（也被称为优势策略）：即不管竞争者采取什么策略，我的这个策
略总显示优势，据此我决不后悔地选择
了这个策略。
占优策略均衡：由博弈中的所有参与者的占优策略组合所构成的均衡就是占优策略均衡。
现代经济博奕理论始于1944年冯·诺依曼和莫根施特恩的《博奕论与经济行为》一书。
近30年来，博弈论在经济学中得到更广泛的应用，它对寡头理论（用来表现寡头间相互依存的竞争特点便有其突出的优越性）、委托代理理论、信息经济学等方面的发展做出了重要的贡献。博弈论的应用是微观经济学的重要发展。
4
2005年的诺贝尔经济学奖得主
在着深刻的冲突。
13
简言之，“囚徒困境”其实是一种非合作博弈，即博 Nhomakorabea方力图使
自己利益最大化，其结果是使每个人状况变坏。
囚犯的困境说明了为什么甚至在合作对双方都有利时，保持合作也是困难的。
14
作为囚徒困境的寡头
加林山的决策
（不合）高产量：40加仑（合）低产量：30加仑
（不合）高产量：
40加仑

博弈论初步

博弈论初步

第五章 博弈论初步

第10章 博弈论初步

第8章 博弈论初步

第10章博弈论初步

10章博弈论

第七章 博弈论初步

博弈论初步

第五章博弈论初步

第10章博弈论初步

第8章博弈论初步

第七章博弈论初步