博弈论基础

本讲要点：博弈论的基本思想，博弈的构成要素，简单博弈的求解方法，纳什均衡的概念，博弈的分类，动态博弈与重复博弈，信息不对称，道德风险，逆向选择，信号传递。

重点：博弈论的基本思想，纳什均衡的概念，信息不对称。

难点：博弈的构成要素，纳什均衡的概念。

讲授时间：6学时

一、博弈的基本要素

1、博弈论与古典经济学的区别

古典经济学的基本思路：给定约束条件，考虑行为主体的最优结果。

博弈论的基本思路：以行为主体之间的相互影响为前提，考虑行为主体的最优结果。

两者的根本区别：是否考虑对方的行为。

古典经济学中消费者行为理论：假定收入、商品价格以及效用函数给定，求最优消费组合。消费者A不会考虑消费者B的影响。

古典经济学中的厂商理论：假定生产函数、成本函数、商品价格给定，求厂商的最优生产决策。厂商A不会考虑厂商B的影响。

古典经济学中的宏观经济理论：假定一国的资源禀赋给定，考虑价格指数、利率等因素的变化对国民收入、就业等的影响。国家A不会考虑国家B的影响。

博弈论：每个人要考虑别人的行为怎样影响自己的选择。

扑克牌游戏：一个人不可能只顾自己出牌，而不考虑别人怎么出牌。

下棋：无论中国象棋、国际象棋、围棋，一个人在走某一步之前，都要考虑对手是怎么走的，以及对手在我走了一步之后会怎么走，以及我又会在对手走了一步之后怎么走，以至无穷。

高手与俗手的区别也就在此。高手往往能够考虑10步甚至20步以后的变化。

总之：你的输赢不仅取决于你的决策，而且取决于你对手的决策。

2、博弈论简史

博弈论的思路在古诺（Cournot,Antoine Augustin,1801-1977）的双头垄断模型中最早提出，冯?诺伊曼（John von Neumann,1903-1957）和摩根斯坦恩（Oskar Margenstern, 1902-1977）在1944年出版了《博弈论与经济行为》（Theory of Games and Economic

Behavior）一书，最早提出了博弈论的概念。

现代博弈论则是由纳什（Nash, John F.）（有一本《美丽心灵》的书，专门介绍纳什和普林斯顿的，后改编为电影）、海萨尼（Harsany, John C.）、泽尔腾（Selten, Reinhard）、夏普利（Sharpley, Lloyd S.）等人发展起来的，1994年的诺贝尔经济学奖就授予了前三位经济学家。

现在，博弈论已经成为现代经济学的基本分析工具之一，并且应用到了政治、经济、军事、社会、自然科学等各个领域。

3、博弈的要素

构建一个博弈，需要以下基本要素：

（1）局中人（参与者）（players）：每局博弈至少有两个参与者。有时，要引入一个特殊的参与者，自然（nature）。比如，一个人猜硬币，可以看成是你在和自然或上帝博弈。

（2）行动集（action set）：规定每个参与者可以采取的行动的集合。比如，猜硬币博弈，一个人有两个行动可供选择：正面，反面。如果是两个硬币，则行动集中的行动增加一倍：（正面，正面），（正面，反面），（反面，正面），（反面，反面）。

（3）时序（playing sequence）：游戏规则中规定的每个参与者决策的先后次序。一般来说，在静态博弈中，局中人同时行动；在动态博弈中，局中人有行动的次序。

（4）策略（strategies）：策略是局中人在一局博弈中的一套完整的行动计划。策略与行动不同，策略包括信息。比如囚徒困境，每个局中人的行动只有两种：坦白，抵赖。但策略就包括：（坦白，抵赖）、（抵赖，抵赖）、（抵赖，坦白）、（坦白，坦白）四种。尽管最后的均衡是（坦白，坦白），但策略有四种。

策略告诉局中人，在每一种可预见的情况下选择什么行动。

（5）报酬（支付、收益）（payoffs）：局中人在不同情况下所得到的效用。

（6）信息（information）：局中人决策所依据的信息。

信息分为完全信息和不完全信息。

在完全信息中，局中人在决策时知道在此之前的全部信息，并且局中人A知道局中人B知道全部信息，并且局中人A知道局中人B知道局中人A知道全部信息，如此以至无穷。比如下棋。

在不完全信息中，局中人不知道与博弈有关的全部信息。比如猜“石头——剪刀——布”的游戏。

（7）结果（outcome）：结果是博弈分析者所感兴趣的所有东西，或者说，博弈分析者（建模者）从行动、支付和其他变量中所挑选出来的他感兴趣的要素的组合。比如，均衡战略组合，均衡行动组合，均衡支付组合等。

（8）均衡（equilibria）：均衡是所有局中人选取的最佳策略所组成的策略组合。

在上述要素中，局中人、行动集、时序、策略、报酬和信息规定了一局博弈的游戏规则。

下面以囚徒困境为例，分析以上各个要素。

囚徒乙

坦白抵赖

坦白囚徒甲

抵赖

在囚徒困境中，

局中人：囚徒A 和囚徒B ；

行动集：每个囚徒的行动集是一样的，都是（坦白，抵赖）。

时序：同时。

策略：每个囚徒的策略集也是一样的，都是（坦白，抵赖）、（抵赖，抵赖）、

（抵赖，坦白）、（坦白，坦白）。

报酬：（坦白，抵赖）=（0，-10）

（抵赖，抵赖）=（-1，-1）

（抵赖，坦白）=（-10，0）

（坦白，坦白）=（-6，-6）

信息：每个囚徒都知道上述报酬，并且也知道对方知道上述报酬。但每个囚徒在决策时不知道对方是怎么决策的。因为他们是同时决策的。而且只博弈一次。

结果：有四种可能的结果。

结果1：囚徒A 想，囚徒B 可能会选择抵赖，因为这是对双方来说最好的结果。囚徒A 是个无赖，他乘人之危，不顾同伙的命运，选择了坦白，这样，得到的结果是（坦白，抵赖）。

结果2：结果1中的囚徒B 和囚徒A 刚好倒过来，则得到的结果是（抵赖，坦白）。结果3：囚徒A 想，囚徒B 可能会选择抵赖，因为这是对双方来说最好的结果。囚徒A 是个照顾朋友的人，他也选择抵赖，这样，得到的结果是（抵赖，抵赖）。

结果4：囚徒A 和B 互相不信任，则结果是（坦白，坦白）。

均衡：（坦白，坦白）。

4、更多的博弈例子

在上学期的教学中，介绍了“囚徒困境”博弈。现在再介绍几个著名的博弈。

（1）性别战（battle of the sexes ）

设有一对恋人，男的喜欢看足球，女的喜欢看芭蕾，但两人更愿意在一起。

女

足球芭蕾

足球男

芭蕾

在这个博弈中，有两个均衡（足球，足球）和（芭蕾，芭蕾）。

但完全可能出现（足球，芭蕾）或（芭蕾，足球）的结果。

（2）智猪博弈（boxed pigs ）

设有两头猪，大猪和小猪。猪圈的一头是食槽，另一头是按键。按键的成本（劳动）为2。如大猪先到，吃9个单位，小猪吃1个单位；如小猪先到，吃4个单位，大猪吃6个单位；如同时到，大猪吃7个单位，小猪吃3个单位。

小猪

按等待

按大猪

等待

均衡的结果是：（按，等待）。

这个博弈可应用到（大股东，小股东），（庄家，散户），（大企业，小企业），（富人，穷人），（领导，下属）等。

（

3）斗鸡博弈（chicken game ）

设有两人同时走到一条独木桥的中央。

进退

进 A

退

这个博弈也有两个均衡：（进，退）、（退，进）。

冷战时期，美苏各占地盘，而不是在同一块地盘上争夺。

夫妻矛盾。

警察与游行队伍。

“两军相逢勇者胜”。政治上、军事上的强硬派往往能够出奇制胜，因为他们敢于“血战到底”。但如果对方不相信你是真正的勇士，或者，如果对方也是强硬派，则可能“两败俱伤”。

毛泽东的“敌进我退，敌退我进”游击战术。这是弱的时候的战略，后来，强大了，毛泽东又提出了“人不犯我，我不犯人；人若犯我，我必犯人”的战略。表述如下：

犯不犯

犯我

不犯

即，两个均衡：（犯，犯）、（不犯，不犯）。

（4）市场进入阻挠（entry deterrance ）

设有两家企业，一家已在市场上，另一家想进入这个市场。进入成本为10。垄断利润为

200，寡头利润为100。

在位者

默许

斗争

进入进入者

不进入

这个博弈也有两个均衡：（进入，默许）、（不进入，斗争）。

注意：（不进入，默许）虽然支付与（不进入，斗争）一样，但不是均衡。

（5）协调博弈（coordination game ）

设甲乙两人去狩猎，如果合作捕杀老虎，则每人得到3；如合作捕杀野牛，则每人得到2；如不合作，则什么也得不到。成本（劳动）为1。

乙

虎牛

虎甲

牛

该博弈有两个均衡：（虎，虎）、（牛，牛）。一般来说，他们先碰上什么，就会合作去捕杀什么。

假如虎和牛同时出现，会怎样呢？

甲乙两人如果可以协商，则会选择（虎，虎）。但如果不能协商，则结果会是，看到对方去捕杀什么，就跟进。

如果把上述博弈改写一下，就得到所谓的“危险的协调”。

A B

甲

从理论上说，上面博弈的两个均衡解（A，A）和（B，B）中，虽然后者优于前者，但由于对于甲来说，一旦受到乙的欺骗，则损失惨重。所以，对于甲来说，更可能选择的是A。

（6）诺曼底登陆

这是美国普林斯顿大学（现代博弈论奠基者John F. Nash获得博士学位和工作的地方，纳什后来得了精神分裂症，普林斯顿宽容的环境以及妻子的爱护使纳什的病情奇迹般地好转。）1981年的博弈论课程中的一道练习题，模拟诺曼底登陆。

我方2个师的兵力，敌方3个师的兵力，只能整师调动。有两条进攻路线。我方兵力超过敌方，则获胜；我方兵力小于或等于敌方兵力，则我方负。问如何决策？

1944年，艾森豪威尔为总司令的盟国远征军经过近一年的准备，在英国集结了强大的军事力量，准备横渡英吉利海峡，在欧洲开辟第二战场。

当时可供盟军选择的登陆地点有两个，一是塞纳河东岸的布隆涅——加来——敦刻尔克一带，这里海峡最狭窄的地方只有几十公里，是一个理想的登陆地点；另一个地点是塞纳河西岸的诺曼底半岛，这里海面宽阔，渡海时间较长，容易被敌人发现。

当时德军的总兵力是58个师，比盟军略多。所获情报表明，德军在布隆涅一带的防守兵力多于在诺曼底的防守兵力，盟军拟以诺曼底为登陆点。

诺曼底登陆战本来是计划在6月5日打响的，但遇上了暴风雨。盟军参谋部预测在6月6日有一段时间的好天气，艾森豪威尔当机立断，决定冒险抓住这个机会，发起进攻。

6月6日凌晨两点，盟军的2个伞兵师空降道德军的防线后面，接着，飞机和军舰猛烈轰击德军的防御阵地，凌晨6点半，第一批地面部队登陆。

现在回到普林斯顿的博弈论练习题。

敌方有四种方案：

A、三个师都驻守甲方向；

B、反过来，三个师都驻守乙方向；

C、两个师驻守甲方向，一个师驻守乙方向；

D、反过来，一个师驻守甲方向，两个师驻守乙方向。

我方有三种方案：

a、两个师从甲方向进攻；

b、反过来，两个师从乙方向进攻；

c、兵分两路，两个方向各派一个师进攻。

下面，我们用“+”表示获胜，用“-”表示失败，用上面大家熟悉的矩阵方式列于下面：

敌方

A B C D

我方 b

在上面的对策矩阵中，“-”表示“负”，“+”表示“胜”。

现在我们来分析敌方的策略选择。A 方案不如C 方案，B

方案不如D 方案。所以，敌方不会选择A 、B 方案，于是，剔除掉这两个方案，得到下面的对策矩阵：

敌方

C D

我方 b

在剩下的对策矩阵中，再分析我方的策略选择。c 方案比a 、b 方案都要差，所以，要将c 方案剔除，得到下面的对策矩阵：

敌方

C D

a 我方

所以，最后的均衡是：敌方不可能把所有兵力驻守在一个方向，我方也不可能兵分两路进攻，在两个进攻方向上，如果我方攻在敌方的薄弱之处，则我方取胜，反之，若攻在敌方的强大之处，则我方失败。因此，信息就非常重要。

不仅信息重要，而且，信号传递、双方统帅的性格等因素也非常重要。有时，佯攻甲方向实攻乙方向；有时，给人佯攻甲方向而实际上就是进攻甲方向。等等。

对于企业、个人的发展来说，该博弈也有参考意义。对于弱势方来说，一般是集

中时间、精力和财力发展某一个方向，否则，只有失败。

二、优势策略与纳什均衡

1、优势策略

在囚徒困境中，不管乙的策略是坦白还是抵赖，甲的最优策略都是坦白；反之亦然。这种策略就叫优势策略（dominant strategy）。

那么，两个囚徒能不能暗自订立“攻守同盟”呢？

问题是，没有一个会相信对方的承诺是可信的。这叫“不可置信承诺”。

黑社会采取以下办法让承诺变得可以置信。黑社会对于供出同伙的人，往往采取“格杀”的惩罚。这样，囚徒困境就改写为：

囚徒乙

坦白抵赖

坦白

囚徒甲

抵赖

这时，（抵赖，抵赖）就成了优势策略。

2、纳什均衡（Nash Equilibrium）

给定其他参与人的战略s-i*，参与人i的战略s i*是优的，如果对于所有的参与人和参与人的所有的策略来说，下式成立：

u i（s i*，s-i*）≥u i（s i，s-i*）

如果不等式严格成立，则成为严格优势策略。

3、优势策略与纳什均衡

优势策略肯定是纳什均衡，但纳什均衡不一定是优势策略。

在性别战、斗鸡博弈等博弈中，没有优势策略，但有两个纳什均衡。

4、博弈求解

一种方法是剔除劣势策略。比如在诺曼底登陆博弈中的做法。

但经常没有严格劣势的策略，比如性别战。

另一种方法是划线法：取每一种策略局中人最大的收益，在其支付下划线（或画圈），如果一个格中的两个支付都被划上线，则这个策略就是一个均衡。

复习上面讲过的博弈，用划线法求解。

5、博弈的分类

（1）静态(static)与动态(dynamic)

静态是指局中人同时决策或同时行动（simultaneous-move）。同时决策或同时行动不是指的时间上完全一致，而是指每个参与者不知道其他参与者的决策或行动。

比如囚徒困境，也许两个囚徒的坦白时间是不同的，但互相不知到对方是否坦白，所以是同时行动。

再比如工程招标，不同的投标者投标的时间也许不同，但只要互相不知道对方的报价，则是同时行动。

如果局中人的决策或行动按照规则是有先后次序的（sequential-move），则是动态博弈。后面要进行简单介绍。

（2）完全信息(complete information)与不完全信息(incomplete information)完全信息是指各种策略组合下局中人的支付函数是所有局中人的共同知识（common knowledge）。

（3）完美信息(perfect information)与不完美信息(imperfect information)完美信息是指局中人完全清楚到他决策时为止所有局中人的所有决策，或者说，了解博伊进行的历史。

（4）博弈的分类

博弈可分为以下几种基本的大类：

完全信息静态博弈（static games of complete information）

完全信息动态博弈（dynamic games of incomplete information）

不完全信息静态博弈（static games of complete information）

不完全信息动态博弈（dynamic games of incomplete information）

如果把信息完美与否考虑进来，则有：

完全且完美信息博弈(games of complete and perfect information)

完全但不完美信息博弈(games of complete but imperfect information)

不完全但完美信息博弈(games of incomplete but perfect information)

不完全且不完美信息博弈(games of incomplete and imperfect information)

只有动态博弈才考虑完美或不完美信息。

注意，在英语中，（不）完全信息博弈与（不）完美信息博弈的表达有细微的区别：games of complete information与games with perfect information。

另外，根据局中人支付的情况，又有以下分类：

零和博弈(zero-sum game)和非零和博弈(non-zero-sum game)。

常和博弈(constant-sum game)和变和博弈(variable-sum game)。

做一定的数学处理，可以把常和博弈处理成零和博弈。

变和博弈包含一个很重要的哲理：双赢（win-win）。

当然，也有共亏的局面，如囚徒困境，这也是一个重要的课题：个人理性与集体理性的矛盾。

三、动态博弈与重复博弈

1、动态博弈

前面讨论的博弈有两个共同特点：一，只博弈一次，博弈结束；二，博弈双方同时行动。这是静态博弈。

在动态博弈中，博弈双方进行多次博弈。比如下棋，你下一步，我下一步，这就是一个动态博弈。

动态博弈一般采用博弈树的形式表达，如以下博弈：

“利益一致”的“抓钱博弈”

“你死我活”的“抓钱博弈”

“温和对抗”的“抓钱博弈”

动态博弈采用“逆向归纳法”求解。

逆向归纳法（backward induction）：也称倒推法(rollback method)，从博弈的最后一个决策阶段开始分析，确定该阶段局中人的策略选择；然后再确定前一阶段局中人的策略选择，一直推到起始点。

现在我们来分析前面的“抓钱博弈”。

在利益一致的博弈中，第4阶段由乙决策：乙如果拿，只能得到4，而如果不拿，则进入下一结点，得到支付5，所以乙选择不拿。

到第3阶段，由甲来决策，同样，甲会选择“不拿”。

所以，该博弈的均衡是：在前面几个阶段，甲乙都选择“不拿”，直到进入最后的结点，每人得到5的支付。

在“你死我活”的博弈中，在第4阶段，乙如果选择不拿，则进入最后的结点，得到0的支付；而如果选择拿，则得到8的支付，于是，选择拿，博弈结束。

到第3阶段，甲知道乙会在下一阶段会选择拿，因此，自己在本阶段的最有选择也是拿，一直倒推到起点。本博弈的均衡是：甲一开始就选择拿，博弈结束。

在温和对抗的博弈中，第4阶段由乙选择，若选择拿，得到支付5，若选择不拿，得到支付4，所以，乙选择拿，博弈结束。

到第3阶段，甲知道乙在第4阶段会选择拿，甲若选择不拿，只能得到3，而选择拿，则得到4。所以，甲的选择也是拿，博弈结束。本博弈的均衡也是：甲一开始就选择拿，博弈结束。

2、重复博弈

重复博弈（repeated game）是指同一博弈重复多次。

一次博弈中存在的欺骗，可能在重复博弈中消除。典型的例子是游贩和坐摊的区别。游贩与买者之间因为是一次性博弈，往往采用欺骗的办法；而坐摊与买者之间是重复博弈，所以，能够诚信经商。

重复博弈之所以能够消除欺骗，是因为存在报复。比如坐摊，买者会采取报复手段：你如果卖了假冒伪劣商品给我，那我，一，会回来找你的麻烦，要求赔偿，甚至告发你的不正当行为；二，我今后再也不到你这里买东西。

现在以囚徒困境为例，分析无穷次重复博弈的结果。

所谓无限次重复，是指局中人不知道会重复多少次，而不一定是真正的无穷多次。

囚徒乙

坦白抵赖

坦白

囚徒甲

抵赖

两个囚徒都知道，大家保持沉默（抵赖）是集体利益最大的选择。但正如前面所说的，如果只是一次性博弈，则（坦白，坦白）是均衡的结果。

我们选择囚徒困境的另一种情况来说明比较好，因为严格的囚徒困境会限制博弈

的次数，因为一个人的生命是有限的。

比如抛硬币博弈，如果甲乙两人都出正面，则1人得到1元的奖赏，如果两人都出反面，则1人得到3元的奖赏，如果不同，则出正面的得到4元的奖赏，出反面的没有奖赏。得到下面的博弈矩阵：

乙

正面反面

正面

甲

反面

双方都知道出反面最好，所以，假定开始的时候大家都承诺要出反面。但这样的承诺是否可信呢？如果只是一次行博弈，则这样的承诺是不可信的，因为每个人有改变策略的驱动。

现在是无穷多次重复博弈，双方都知道，如果对方发现我上次出正面，那他就不会相信我的话了，今后就会出正面进行报复。也就是说，我只能占一次便宜；而对方也只会吃一次亏。从长远利益考虑，我的最优选择是信守承诺，出反面。

假定是n次博弈，局中人的计算是：

如果我前面m次出反面，第m+1次违背承诺出正面，那么我的支付是3m+(n-m)，而如果一直出反面，则支付是3n，显然3n>3m+(n-m)。所以，我会选择一直出反面。

当然，如果知道n的确切数值，则狡猾的局中人会在最后一次改变策略，出正面，希望得到3（n-1）+4的支付，因为3（n-1）+4>3n。

但问题是，对方也不是笨蛋。

所以，只有当n为不确切的数值时，双方才会信守承诺。

四、信息经济学的基本问题

1、信息不对称（asymmetric information）

信息不对称：一方拥有的信息对方不知道。比如说，经理人是否努力工作，经理人自己最清楚，老板不一定清楚。

所以，设计机制或合约时，一定要以可证实的变量为基础。比如，工作是否努力是不可证实的。

至于目前各单位采用的许多变量，比如“政治上与党中央保持高度一致”、“廉洁奉公”、“努力学习”等等，都是不可证实的变量。因此，靠这些条件来考核，是不能真正考核出优劣的。

为什么会出现“会做的不如会写的，会写的不如会编的，会编的不如会唱的，会唱的不如会吹的”这样的结果？就是因为设计机制或合约时所依据的变量是不可证实的。

相对于“努力工作”来说，“工作业绩”（如销售收入、利润、成本）等是可证实的。

高校排名，评价的指标中主要是可证实的变量，如资产规模、教授数、学术论文、论著、科研经费等。

设想一下，如果是采取一些不可证实的变量来排名，则恐怕谁也不服谁。

同样，教师不能完全以是否努力学习来评判学生，而需要采用成绩。这就是为什么不论哪个国家都要进行考试的原因。

在信息不对称的情况下，主要有道德风险、逆向选择、信号传递等基本问题。

2、道德风险（moral hazard）

亚当?斯密（1776）在《国富论》中就已经意识到了道德风险的存在，只是没有采用这样一个名词。

“无论如何，由于这些公司的董事们是他人钱财而非自己钱财的管理者，因此很难设想他们会像私人合伙者照看自己钱财一样地警觉，所以，在这类公司事务的管理中，疏忽和浪费总是或多或少地存在的。”

道德风险是指从事经济活动的人在最大限度地增进自身效用时作出不利于他人的行动。

道德风险存在于信息不对称、合同不完备、合同实施成本过大等情况下。

信息不对称：由于一个人拥有私人信息，就占有信息优势，从而可以找机会偷懒或不负责任。

在委托-代理问题中，代理人具有委托人不知道的私人信息。

合同不完备：由于人们的知识和预测能力是有限的，不可能把所有可能发生的情况都写进合同中。

合同实施成本过大：即便能够把所有可能情况都写进合同中，由于实施成本过大，往往也难以完全实施。

总之，由于信息不对称、合同不完备、合同实施成本等原因，人们往往宁愿接受由于道德风险所带来的损失。因为搜寻信息需要成本、制订完备合同需要成本、完全实施合同需要成本，当这些成本高于因道德风险造成的损失时，就选择任由道德风险的存在。

所以，在委托人-代理人之间，往往寻求的是一种均衡，当监督和签订、实施合同的边际成本等于道德风险的边际成本时，均衡就形成了。

3、逆向选择(adverse selection)

（The Market 经济学家阿克洛夫（Akerlof, George）在1970年发表的论文“次品市场”

of Lemons,Quarterly Journal of Economics,84(3),August,488-500）中首次从现代经济学的角度对逆向选择进行了分析。

在二手车市场上，卖者对车的质量占有信息优势。假定有好、中、差三种车，对于卖者来说，这三种车的价值分别为11000美元、8000美元、5000美元；对于买者，这三种车的价值分别为12000美元、9000美元、6000美元。

如果信息是对称的，则三种车都有可能成交，比如，这三种车在11500美元、8500美元、5500美元的价值成交，对买卖双方都是有利的。

然而，由于信息不对称，买方不知道哪种车是好的，哪种车是差的，只能采取概率的方法。

假定三种车出现的概率相等，都为1/3。这样，对于买方来说，旧车的期望价值为：12000*1/3+9000*1/3+6000*1/3=9000美元。

于是，买方愿意出的最高价格为9000美元。

这样，卖方就不可能出售价值为11000美元的好车。于是，好车就退出市场。剩下的是中、差两种车。

买方当然也知道这点，于是，重新修改预期价值：9000*1/2+6000*1/2=7500美元。

于是，买方现在愿意出的最高价格为7500美元。

这样，卖方就不愿意出售价值8000美元的中等车，中等车也退出市场。

最后，市场上剩下的是最差的车。

这就是逆向选择。

逆向选择的例子很多，比如保险市场、劳动力市场、货币市场等。

保险市场：愿意参加保险的人很可能是身体有问题的人。身体是否有问题，投保人比保险公司更清楚，也就是说，投保人具有私人信息。保险公司知道这点，就把保险费定得很高，这样，身体好的人就更不愿参加保险，这部分人就退出了市场。所以，热衷于买保险的人往往是身体不好或年龄较大的人。

劳动力市场：劳动者的能力是劳动者的私人信息。所以，企业愿意出的工资是一个平均数，这样，能力特别强的人就会退出这个市场。所以，在一般劳动力市场上的往往是能力中等或能力差的人。

但企业又需要能力强的人，于是就有了猎头市场。企业把识别劳动者能力的任务交给猎头公司，并且猎头公司要承担风险。

货币市场：项目是否有风险是借款人的私人信息。所以，贷款人对贷款利率的出价是一个平均风险水平的价格，这样，风险低、收益低的稳定型借款者就会退出市场。所以，银行的坏账一天天增加。

4、信号传递

由于信息不对称，每个人都希望向对方传递对自己有利的信号。

比如，在招聘时，应聘者总是显示自己最好的一面。谈判中，企业总是把最能显示自己实力的一面展示出来。公司越来越注意企业形象的塑造。女孩子总是把自己打扮得漂亮。人们总是把最好的衣服穿在外面。等等。

问题是，对方不一定相信你所传递的信号是真实的。

有的信号，一下子是难以识别真伪的，需要时间。所以，“百年老店”是最好的信号传递方式。

曾经有几家美国的企业联合控告日本公司倾销，美国法院的判决是：控告不成立，因为不可能有哪家公司能够长期采用低于成本的价格。

所以，长期采取低价策略的企业传递的信号是：我是低成本的，你成本高，别来。

长期在CCTV黄金时段做广告的厂商传递的信号是：我有实力，企业经营一直不错。

出示自己的高学历证书和各种获奖证书的求职者传递的信号是：我是一个优秀的应聘者。

有的小公司对业务采取不冷不热的态度，传递的信号是：我不愁没业务做。

故意装着要离开的顾客传递的信号是，把价格再降点，否则我走了。

初恋时经常找不怎么符合逻辑的借口去找对方但又不说出口，传递的信号是，我对你有意思，你呢？当然指望是对方先说出来。

由于对方不一定相信你传递的信号，而甄别信号需要成本，所以，一定要传递可信（可观测）、并且甄别成本低的信号。

为什么招聘单位看重学历，因为学历容易甄别，而且比起能力的描述来，相对可靠。

为什么顾客喜欢买名牌产品，因为名牌是经过很多年才形成的，广告、产品质量、服务质量等因素起了很大的作用，名牌传递的信号就是：质量好，服务好。

注意：无论发出信号或不发出信号，都是一种信号传递。

复习

1．博弈论与古典经济学的区别在于，前者考虑行为人的相互影响。

2．博弈论现在得到了很快的发展，已经在经济、政治、社会、文化、自然科学等领域得到了广泛的应用。

3．一个完整的博弈要有局中人、行动集、时序、策略、支付、信息等要素来刻画，不同的博弈构建者可能对各种要素的不同组合感兴趣。

4．囚徒困境是最著名的一个博弈，它揭示了个体理性与集体理性的矛盾。要改变囚徒困境的结局，需要改变博弈的规则。

5．纳什均衡是描述博弈均衡的一个非常重要的概念，指的是一种相对稳定的状态，在局中人的策略组合下，没有人愿意单独改变自己的行动。一个博弈可能有多个纳什均衡。

6．优势策略是指无论对方采取什么行动，我都将采取的策略。比如囚徒困境中的“坦白”。优势策略肯定构成纳什均衡，但纳什均衡不一定是优势策略。

7．根据局中人的支付函数是否是共同知识，以及是否同时决策，可以把博弈分为完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈和不完全信息动态博弈。

8．完美信息和不完美信息的区分依据是，局中人对前面对局的情况是否清楚。

9．动态博弈采取博弈树的方法来表示。博弈树的方法也叫博弈的展开式。求解动态博弈的方法之一是逆向归纳法，或倒推法，即从最后一个结点开始往前面推导。

10．重复博弈是指不断重复某一博弈。重复博弈可能会改变一次博弈的均衡。重复博弈是动态博弈的一种。

11．信息不对称是指某一局中人占有私人信息，从而占有信息优势。

12．在不对称信息条件下，协议签订前有逆向选择和信号传递问题，协议签订后有道德风险问题。

13．道德风险是指占有信息优势的一方在最大化自己利益的同时采取不利于他人利益的策略。

14．逆向选择是指信息不对称的市场会把优秀的资源赶出局，而不是把低劣的资源淘汰掉。

15．信息优势方总是传递对自己有利的信号，而信息劣势方不会轻易相信，所以，最后的均衡是：传递可观测的、甄别成本低的信号。

进一步阅读

对本讲内容有兴趣的同学可进一步阅读以下文献：

周惠中，2003：《微观经济学》，第13章，第14章，上海人民出版社

（因为是在“微观经济学”中讲述博弈论和信息经济学的有关知识，所以，内容的选择和难易程度比较适中，有“点到为止”的感觉，适合本科生阅读。）张维迎，1996：《博弈论与信息经济学》，“0.导论”，“7.逆向选择与信号传递”，上海三联书店，上海人民出版社

（这是国内最早介绍博弈论和信息经济学的著作，到2004年，已先后印刷8次，印数超过5万，是国内经济学著作中的“畅销书”，引用率极高，几乎所有涉及博弈论和信息经济学的文献都要引用张维迎的这本著作。这本书的难度较大，但张维迎在书中创造了一些“中国特色”的例子，值得一读。而且，中国人自己写的书，比那些蹩脚的译本要容易读懂些。顺便提一下，国人所著的博弈论的书，还有上海财大施锡铨写的《博弈论》、复旦谢识予的《经济博弈论》等，都是不错的书。）王则柯、李杰，2004：《博弈论教程》，中国人民大学出版社

（中山大学王则柯教授最新为本科生写的教材，难度适中，主要讲完全信息博弈，有一定数学基础的同学都可以看懂。）

Macho-Stadler,I.,and J.David Perez-Castrillo,2004：《信息经济学引论：激励与合约》，“1.导论”，上海财经大学出版社

（这本书对“道德风险”、“逆向选择”、“信号传递”三个问题作了专门的分析，但对于本科生来说难度较大。）

Dixit,A.K.,and Barry J.Nalebuff,2002：《策略思维》，中国人民大学出版社

（这是最通俗易懂的一本介绍博弈论的著作，书中很少使用数学，采用的案例来自于电影、小说、传记、日常生活等各个方面。这本书的译者是王则柯先生的女儿王尔山，与乃父比，文笔有更胜一筹之感。）

Akerlof,George,1970.The market for lemons.Quarterly Journal of Economics,84(3), August, 488-500

（这篇文章可以在我的个人网页（https://www.360docs.net/doc/008791790.html,/web/winninghu）的“下载资源”栏中找到，英语较好的同学，不妨一读。这篇文章没用什么数学，完全可以

读懂。据说，当初就是因为该文的数学少，而遭到了杂志社的退稿。）Wilson,Charles.“逆选择（adverse selection）”，《新帕尔格雷夫经济学大辞典》，第1卷，第35-6页

Postlewaite, A.“非对称信息（asymmetric information）”，《新帕尔格雷夫经济学大辞典》，第1卷，第144-5页

Kotowitz, Y.“道德风险（moral hazard）”，《新帕尔格雷夫经济学大辞典》，第3卷，第588-91页

Riley,J.G.“发送信号（signalling）”，《新帕尔格雷夫经济学大辞典》，第4卷，第355-8页

习题

1、把“田忌赛马”的故事改编为一个博弈，并用博弈矩阵表示出来。

2、把“老虎-鸡-虫-棒棒”的游戏改编成一个博弈，并用博弈矩阵表示出来。

3、分别用剔除劣势策略法和划线法找出以下博弈的纳什均衡，这个博弈有没有严格优势策略？

局中人2

L R

局中人2 M

4、用逆向归纳法求出下面博弈的均衡解。

博弈论的基础知识(doc 21页)

博弈论的基础知识与应用(转) 1 基础知识博弈论是一种独特的处于各学科之间的研究人类行为的方法。与博弈论有关的学科包括数学、经济学以及其他社会科学和行为科学。博弈论（如同计算科学理论和许多其他的贡献一样）是由约翰.冯.诺伊曼（John von Neumann）创立的。博弈论领域第一本重要著作是诺伊曼与另一个伟大的数理经济学家奥斯卡.摩根斯坦（Oskar Morgenstern）共同写成的《博弈论与经济行为》（The Theory of Games and Economic Behavior）。当然，摩根斯坦把新古典经济学的思想带入了合作中，但是诺伊曼也同样意识到那些思想并对新古典经济学做出了其他的贡献。 ■一个科学的隐喻由于诺伊曼的工作，在更广阔的人类行为互动的范围内，“博弈”成为了一个科学的隐喻。在人类的互动行为中，结局依赖于两个或更多的人们所采取的交互式的战略，这些人们具有相反的动机或者最好的组合动机（mixed motives）。在博弈论中常常讨论的问题包括： 1）当结局依赖于其他人所选择的战略以及信息是完全的时候，“理性地”选择战略意味着什么？ 2）在允许共同得益或者共同损失的“博弈”中，寻求合作以实现共同得益（或避免共同损失）是否“理性”？或者，采取侵略

性的行动以寻求私人利益而不顾共同得益或共同损失，这是否是博弈论的基础知识与应用(转) 1 基础知识博弈论是一种独特的处于各学科之间的研究人类行为的方法。与博弈论有关的学科包括数学、经济学以及其他社会科学和行为科学。博弈论（如同计算科学理论和许多其他的贡献一样）是由约翰.冯.诺伊曼（John von Neumann）创立的。博弈论领域第一本重要著作是诺伊曼与另一个伟大的数理经济学家奥斯卡.摩根斯坦（Oskar Morgenstern）共同写成的《博弈论与经济行为》（The Theory of Games and Economic Behavior）。当然，摩根斯坦把新古典经济学的思想带入了合作中，但是诺伊曼也同样意识到那些思想并对新古典经济学做出了其他的贡献。 ■一个科学的隐喻由于诺伊曼的工作，在更广阔的人类行为互动的范围内，“博弈”成为了一个科学的隐喻。在人类的互动行为中，结局依赖于两个或更多的人们所采取的交互式的战略，这些人们具有相反的动机或者最好的组合动机（mixed motives）。在博弈论中常常讨论的问题包括： 1）当结局依赖于其他人所选择的战略以及信息是完全的时候，“理性地”选择战略意味着什么？ 2）在允许共同得益或者共同损失的“博弈”中，寻求合作以

博弈论基础复习

《博弈论基础》主要知识点一、名词解释（5×2＝10分）策略型博弈它是由三个部分组成，即局中人、策略和各种策略组合中所得到的利益。纳什均衡指参与博弈的每一局中人在给定其他局中人策略的条件下选择上策所构成的一种策略组合。混合策略局中人的混合策略是其纯策略空间上的一种概率分布，表示局中人实际博弈时根据这种概率分布在纯策略中随机选择加以实施。扩展型博弈博弈存在着局中人行动的先后次序，是对具有动态结构的决策形式进行研究的规范分析工具。博弈树对于任何一种双人完备博弈，都可以用一个博弈树来描述，并通过博弈树搜索策略寻找最佳解。博弈树类似于状态图和问题求解搜索中使用的搜索树。完美信息博弈是指一次只有一个局中人在行动，而且他在行动时知道博弈的所有以往行动历史的一类特殊博弈。子博弈指由原扩展型博弈中的一个决策节点与它的所有后续节点组成的博弈。行为策略是指每一个参与人在每一个信息集上随机的选择行动。逆向归纳法逆向归纳法是求解子博弈精炼纳什均衡的最简便方法。在求解子博弈精炼纳什均衡时，从最后一个子博弈开始逆推上。冷酷策略又称触发策略。指参与人在开始时选择合作,在接下来的博弈中,如果对方合作则继续合作,而如果对方一旦背叛,则永远选择背叛,永不合作。类型 :一般地，将一个参与人所拥有的所有私人信息称为他的类型。信号博弈是研究具有信息传递作用的信号机制的一般博弈模型，其基本特征是两个博弈方，分别称为信号发出方和信号接收方。分离均衡信号博弈中的完美贝叶斯均衡之一，这种均衡中不同类型的发送者以概率1选择不同的信号，接收者完全可以通过信号来准确判断出发送者的类型。混同均衡信号博弈中的完美贝叶斯均衡之一，这种均衡中不同类型的发送者选择了相同的信号，接收者无法从信号中得到新的信息，无法对先验信念进行修正。特征函数特征函数型博弈对每一种可能联盟给出相应的联盟总和收益，也就是给出了一种集合函数，称为特征函数。联盟

博弈论基础作业及答案

博弈论基础作业一、名词解释纳什均衡占优战略均衡纯战略混合战略子博弈精炼纳什均衡贝叶斯纳什均衡精炼贝叶斯纳什均衡共同知识见PPT 二、问答题 1.举出囚徒困境和智猪博弈的现实例子并进行分析。囚徒困境的例子：军备竞赛；中小学生减负；几个大企业之间的争相杀价等等；以中小学生减负为例：在当前的高考制度下，给定其他学校对学生进行减负，一个学校最好不减负，因为这样做，可以带来比其他学校更高的升学率。给定其他学校不减负，这个学校的最佳应对也是不减负。否则自己的升学率就比其他学校低。因此，不论其他学校如何选择，这个学校的最佳选择都是不减负。每个学校都这样想，所以每个学校的最佳选择都是不减负，因此学生的负担越来越重。请用同样的方法分析其他例子。智猪博弈的例子：大企业开发新产品；小企业模仿；股市中，大户搜集分析信息，散户跟随大户的操作策略以股市为例：给定散户搜集资料进行分析，大户的最佳选择是跟随。而给定散户跟随，大户的最佳选择是自己搜集资料进行分析。但是不论大户是选择分析还是跟随，散户的最佳选择都是跟随。因此如果大户和散户是聪明的，并且大户知道散户也是聪明的，那么大户就会预见到散户会跟随，而给定散户跟随，大户只有自己分析。请用同样的方法分析其他例子。 2.请用博弈论来说明“破釜沉舟”和“穷寇勿追”的道理。破釜沉舟是一个承诺行动。目的是要断绝自己的退路，让自己无路可退，让自己决一死战变得可以置信。也就是说与敌人对决时，只有决一死战，这样才可以取得胜利。否则，如果不破釜沉舟，那么遇到困难时，就很有可能退却，也就无法取得胜利。穷寇勿追就是要给对方一个退路，由于有退路，对方就不会殊死抵抗。否则，对方退无可退，只有坚决抵抗一条路，因而必然决一死战。自己也会付出更大的代价。

博弈论基础作业及答案

博弈论基础作业及答案Last revision on 21 December 2020

博弈论基础复习

《博弈论基础》复习大纲一、名词解释（5×2＝10分）策略型博弈它是由三个部分组成，即局中人、策略和各种策略组合中所得到的利益。纳什均衡指参与博弈的每一局中人在给定其他局中人策略的条件下选择上策所构成的一种策略组合。混合策略局中人的混合策略是其纯策略空间上的一种概率分布，表示局中人实际博弈时根据这种概率分布在纯策略中随机选择加以实施。扩展型博弈博弈存在着局中人行动的先后次序，是对具有动态结构的决策形式进行研究的规范分析工具。博弈树对于任何一种双人完备博弈，都可以用一个博弈树来描述，并通过博弈树搜索策略寻找最佳解。博弈树类似于状态图和问题求解搜索中使用的搜索树。完美信息博弈是指一次只有一个局中人在行动，而且他在行动时知道博弈的所有以往行动历史的一类特殊博弈。子博弈指由原扩展型博弈中的一个决策节点与它的所有后续节点组成的博弈。行为策略是指每一个参与人在每一个信息集上随机的选择行动。逆向归纳法逆向归纳法是求解子博弈精炼纳什均衡的最简便方法。在求解子博弈精炼纳什均衡时，从最后一个子博弈开始逆推上。冷酷策略又称触发策略。指参与人在开始时选择合作,在接下来的博弈中,如果对方合作则继续合作,而如果对方一旦背叛,则永远选择背叛,永不合作。类型一般地，将一个参与人所拥有的所有私人信息称为他的类型。静态贝叶斯均衡是一种与类型有关的策略组合，其中每个局中人在给定自己类型和其它局中人策略的情况下最大化自己的期望效用函数。

信号博弈是研究具有信息传递作用的信号机制的一般博弈模型，其基本特征是两个博弈方，分别称为信号发出方和信号接收方。分离均衡信号博弈中的完美贝叶斯均衡之一，这种均衡中不同类型的发送者以概率1选择不同的信号，接收者完全可以通过信号来准确判断出发送者的类型。混同均衡信号博弈中的完美贝叶斯均衡之一，这种均衡中不同类型的发送者选择了相同的信号，接收者无法从信号中得到新的信息，无法对先验信念进行修正。联盟设},,2,1{I =ζ为局中人集合，则其中任意一非空子集ζ?S 为一个联盟。特征函数特征函数型博弈对每一种可能联盟给出相应的联盟总和收益，也就是给出了一种集合函数，称为特征函数。核多人合作博弈中所有不被超优的分配的集合。核仁合作博弈核仁解所依据的基本思想是:在分配属于核仁的条件下，最不理想的联盟也要优于任何其它分配向量的最不理想的联盟。二、判断题（5×1＝5分）三、简答题（4×7＝28分）策略型博弈的基本要素。策略型博弈的基本要素有：局中人：即博弈的参与者，可以是自然人﹑企业﹑政府﹑社团等。策略：指每个局中人在博弈中可选择采用的行动方案。支付：指每个局中人从各种策略组合中获得的收益。什么是纳什均衡？你是如何理解的？纳什均衡及其理解：在一个博弈过程中，无论其它局中人的策略选择如何，局中人都会选择某个确定的策略，则该策略被称作支配性策略。如果两个博弈的当事人的策略组合分别构成各自的支配性策略，局中人谁都没有动机单方面偏离该状态，那么这个组合就被定义为纳什均衡。 1.是完全信息静态博弈的解的一般概念。 2.每一个严格占优战略均衡一定是纳什均衡，反之不然。

博弈论基础

ECON 40050 Game Theory Exam 1- Answer Key Instructions: 1) You may use a pen or pencil, a hand-held nonprogrammable calculator, and a ruler. No other materials may be at or near your desk. Books, coats, backpacks, etc... must be placed against the wall. No electronic communication devices may be used. 2) As soon as the instruction to begin the test is given, please check that you have 10 numbered pages. 3) Be sure to show all of your work. Answers without supporting calculations will receive zero credit. You will receive credit only for the answers and supporting calculations that appear in this test packet. 4) All exams must be turned in by 1:45 pm. No extensions will be granted. 5) Be sure to read each question in its entirety before beginning your analysis. 6) The time estimates at the beginning of each question are only suggestions to help you manage your time. NAME ____________________________________________ Question 1 (10 minutes)_______ (15 points) Question 2 (10 minutes)_______ (15 points) Question 3 (10 minutes)_______ (15 points) Question 4 (15 minutes)_______ (15 points) Question 5 (20 minutes)_______ (20 points) Total: (65 minutes)_______ (80 points)

博弈论基础

博弈论博弈论（Game Theory），亦名“对策论”、“赛局理论”，属应用数学的一个分支，博弈论已经成为经济学的标准分析工具之一。目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。博弈论主要研究公式化了的激励结构间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。生物学家使用博弈理论来理解和预测进化论的某些结果。参见：行为生态学（behavioral ecology）。约翰·冯·诺依曼博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略，达到取胜的目的。博弈论思想古已有之，中国古代的《孙子兵法》就不仅是一部军事著作，而且算是最早的一部博弈论著作。博弈论最初主要研究象棋、桥牌、赌博中的胜负问题，人们对博弈局势的把握只停留在经验上，没有向理论化发展。博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。近代对于博弈论的研究，开始于策墨洛（Zermelo），波雷尔（Borel）及冯·诺伊曼（von Neumann）。 1928年，冯·诺依曼证明了博弈论的基本原理，从而宣告了博弈论的正式诞生。1944年，冯·诺依曼和摩根斯坦共著的划时代巨著《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统的应用于经济领域，从而奠定了这一学科的基础和理论体系。 1950～1951年，约翰·福布斯·纳什（John Forbes Nash Jr）利用不动点定理证明了均衡点的存在，为博弈论的一般化奠定了坚实的策墨洛（Zermelo) 基础。纳什的开创性论文《n人博弈的均衡点》（1950），《非合作博弈》（1951）等等，给出

博弈论基础知识

1 基础知识博弈论是一种独特的处于各学科之间的研究人类行为的方法。与博弈论有关的学科包括数学、经济学以及其他社会科学和行为科学。博弈论（如同计算科学理论和许多其他的贡献一样）是由约翰•冯•诺伊曼（John von Neumann）创立的。博弈论领域第一本重要著作是诺伊曼与另一个伟大的数理经济学家奥斯卡•摩根斯坦（Oskar Morgenstern）共同写成的《博弈论与经济行为》（The Theory of Games and Economic Behavior）。当然，摩根斯坦把新古典经济学的思想带入了合作中，但是诺伊曼也同样意识到那些思想并对新古典经济学做出了其他的贡献。 ■一个科学的隐喻由于诺伊曼的工作，在更广阔的人类行为互动的范围内，“博弈”成为了一个科学的隐喻。在人类的互动行为中，结局依赖于两个或更多的人们所采取的交互式的战略，这些人们具有相反的动机或者最好的组合动机（mixed motives）。在博弈论中常常讨论的问题包括： 1）当结局依赖于其他人所选择的战略以及信息是完全的时候，“理性地”选择战略意味着什么？ 2）在允许共同得益或者共同损失的“博弈”中，寻求合作以实现共同得益（或避免共同损失）是否“理性”？或者，采取侵略性的行动以寻求私人利益而不顾共同得益或共同损失，这是否是“理性”的？ 3）如果对2）的回答是“有时候是”，那么在什么样的环境下侵略是理性的，在什么样的情况下合作是理性的？ 4）在特定情况下，正在持续的关系与单方退出这种关系是不同的吗？ 5）在理性的自我主义者的行为互动中，合作的道德规则可以自然而然地出现吗？ 6）在这些情况下，真正的人类行为与“理性”行为是否相符？ 7）如果不符，在那些方面不符？相对于“理性”，人们更倾向于合作？或者更倾向于侵略？抑或二者皆是？因而，博弈论研究的“博弈”包括：  破产  门口的野蛮人（Barbarians at the Gate）  网络战（Battle of the Networks）  货物出门，概不退换（Caveat Emptor）  征召（Conscription）  协调（Coordination）  逃避（Escape and Evasion）  青蛙呼叫配偶（Frogs Call for Mates）  鹰鸽博弈（Hawk versus Dove）  Mutually Assured Destruction  多数决定原则（Majority Rule）  Market Niche  共同防卫（Mutual Defense）  囚徒困境（Prisoner’s Dilemma）  补贴小商业Subsidized Small Business  公共地悲剧Tragedy of the Commons  最后通牒Ultimatum  视频系统协调Video System Coordination ■理性新古典经济学与博弈论之间的关键链接就是理性。新古典经济学建基于这样一个假设之上，即人类在其经济选择行为中是绝对理性的。确切地说，这个假设意味着每个人在其所面临的环境中都会最大化自身的报酬——利润、收入或主观利益。在资源配置研究中，上述假说服务于两个目的：一是稍稍缩小可能发

博弈论基础复习-11汇编

《博弈论基础》复习大纲一、辨析题（2×5＝10分）二、简答题（5×7＝35分） 1.描述双人策略型（标准型）博弈的基本结构及其纳什均衡。你是如何理解纳什均衡的？（1）标准式博弈记为：G＝｛S1，S2，…，Sn；u1，u2，…，un｝。其基本要素包括:局中人、策略（策略组合）、支付（支付函数）（2）局中人：博弈的参与人i 博弈的参与人集合I：i∈I =｛1, 2, …, n｝（3）纯策略：指局中人在博弈中可以选择采用的行动方案。每个局中人都有可供其选择的多种策略，参与人i的纯策略si∈Si ①参与人i的策略集（纯策略空间）为Si，i ∈I ②策略组合：s= (s1, s2, …，si，…, sn) ③策略组合空间：S＝×iSi （4）支付（效用）：每个局中人从各种策略组合中获得的收益，由于它是参与人策略组合的函数，又称为支付函数每个参与人的支付函数记为ui(s)=ui(s1, s2, …, sn)，si∈Si （5）Nash均衡在博弈G＝｛S1，S2，…，Sn；u1，u2，…，un｝中，如果策略组合s*=(s1*, s2*, …, sn*)满足对每一参与者i，si*是他针对其他参与者所选策略s-i*=(s1*, s2*, …si-1*, si+1*,…, sn*)的最优反应策略，则称策略组合s*=(s1*, s2*, …, sn*)为该博弈的一个纳什均衡。即： ui(si*, s-i*)≥ui(si, s-i*)，si∈Si 纳什均衡是一种相对稳定状态，没有参与者有动机独自偏离纳什均衡下的策略选

择。 2.分析两人两策略博弈构成囚徒困境博弈应满足的条件。囚徒困境博弈说明了什么问题？合作背叛合作R,R S,T 背叛T,S P,P 条件：（1）T>R>P>S（2）2R>T+S或2R>2P 囚徒困境反映个人最佳选择并非团体最佳选择，说明个人利益与社会利益的冲突。 3.描述双人策略型博弈的纯策略和混合策略。（1）纯策略：指局中人在博弈中可以选择采用的行动方案。每个局中人都有可供其选择的多种策略，参与人i的纯策略si∈Si 参与人i的策略集（纯策略空间）为Si，i ∈I 策略组合：s= (s1, s2, …，si，…, sn) 策略组合空间：S＝×iSi （2）混合策略混合策略：若参与人i有K个纯策略：Si＝｛si1，…，siK i i1iK）称为i ik(sik)是i选择sik的概率，对于所有的k＝1，2，…，K，0ik≤1，∑k ik＝1。纯策略为混合策略的一个特例。混合策略空间：参与人i i i i

博弈论入门

博弈论入门 1 基础知识博弈论是一种独特的处于各学科之间的研究人类行为的方法。与博弈论有关的学科包括数学、经济学以及其他社会科学和行为科学。博弈论（如同计算科学理论和许多其他的贡献一样）是由约翰?冯?诺伊曼（John von Neumann）创立的。博弈论领域第一本重要著作是诺伊曼与另一个伟大的数理经济学家奥斯卡?摩根斯坦（Oskar Morgenstern）共同写成的《博弈论与经济行为》（The Theory of Games and Economic Behavior）。当然，摩根斯坦把新古典经济学的思想带入了合作中，但是诺伊曼也同样意识到那些思想并对新古典经济学做出了其他的贡献。 ■一个科学的隐喻由于诺伊曼的工作，在更广阔的人类行为互动的范围内，“博弈”成为了一个科学的隐喻。在人类的互动行为中，结局依赖于两个或更多的人们所采取的交互式的战略，这些人们具有相反的动机或者最好的组合动机（mixed motives）。在博弈论中常常讨论的问题包括： 1）当结局依赖于其他人所选择的战略以及信息是完全的时候，“理性地”选择战略意味着什么？ 2）在允许共同得益或者共同损失的“博弈”中，寻求合作以实现共同得益（或避免共同损失）是否“理性”？或者，采取侵略性的行动以寻求私人利益而不顾共同得益或共同损失，这是否是“理性”的？ 3）如果对2）的回答是“有时候是”，那么在什么样的环境下侵略是理性的，在什么样的情况下合作是理性的？ 4）在特定情况下，正在持续的关系与单方退出这种关系是不同的吗？ 5）在理性的自我主义者的行为互动中，合作的道德规则可以自然而然地出现吗？ 6）在这些情况下，真正的人类行为与“理性”行为是否相符？ 7）如果不符，在那些方面不符？相对于“理性”，人们更倾向于合作？或者更倾向于侵略？抑或二者皆是？因而，博弈论研究的“博弈”包括：破产门口的野蛮人（Barbarians at the Gate）网络战（Battle of the Networks）货物出门，概不退换（Caveat Emptor）征召（Conscription）协调（Coordination）逃避（Escape and Evasion）青蛙呼叫配偶（Frogs Call for Mates）鹰鸽博弈（Hawk versus Dove） Mutually Ass ured Destruction 多数决定原则（Majority Rule） Market Niche 共同防卫（Mutual Defense）囚徒困境（Prisoner's Dilemma）补贴小商业Subsidized Small Business 公共地悲剧Tragedy of the Commons

博弈论简明教材

博弈论第一节博弈问题概述一、博弈的基本概念博弈论是近年经济学中发展得很快的一个分支。博弈论（game theory）是研究决策主体的行为发生直接相互作用时候的决策以及这种决策的均衡问题的。换句话说，博弈论研究当某一经济主体的决策既受到其它经济主体决策的影响，而且该经济主体的相应决策又反过来影响到其它经济主体时的决策问题和均衡问题。在前面几讲中，除了寡头市场外，消费者的效用或厂商的利润都只依赖于他自己的选择，而与其他人的选择无关。在这里，经济作为一个整体，各个经济主体的选择是相互影响的。但对于单个的消费者或厂商来说，所有其它经济主体的行为都被包括在一个参数里。这个参数就是价格。除此以外，经济主体在决策时，面临的似乎是一个非人格化的东西。经济主体既不需要考虑他人的选择对自己选择的影响，也何必需要考虑自己的选择对他人的影响。而在本讲所介绍的博弈论中，消费者的效用或厂商的利润不仅依赖于自己的选择，而且依赖于具体的某一个或某一些其它经济主体的选择。在经济学中，博弈论通常是放在寡头市场的分析中，因为在寡头市场上，某一寡头企业在决策时，不得不考虑其他寡头企业的反应。但事实上，博弈行为是广泛存在的。博弈分析的目的是使用博弈规则决定均衡。博弈论的基本概念包括：参与人、行动、战略、博弈规则、信息、报偿、均衡。参与人是指博弈中选择行动以最大化自身利益（效用、利润等）的决策主体（如个人、厂商、国家）。行动是指参与人作的决策。战略是指参与人选择行动的规则，它告诉参与人在什么情况下选择什么行动。例如，“人不犯我、我不犯人；人若犯我、我必犯人”是一种战略。这里，“犯”与“不犯”是两种不同的行动。战略规定了什么时候选择“犯”，什么时候选择“不犯”。博弈规则是指参与人共同接受的不同情况下的最优战略。信息是指参与人在博弈中的知识，特别是有关其他参与人（对手）的特征和行动的知识。报偿是参与人从博弈中获得的结果，它取决于所有参与人的行动或战略。把全体参与人可能采取的不同战略及其报偿都列出来，称为报偿矩阵。均衡是所有参与人的最优战略或行动的组合。二、博弈的分类可以从不同的角度对博弈进行分类。根据博弈者选择的战略，可以将博弈分成合作博弈 (cooperative games) 与非合作博弈 (non-cooperative games). 合作博弈与非合作博弈之间的区别，主要在于博弈的当事人之间能否达成一个有约束力的协议。如果有，就是合作博弈；反之，就是非合作博弈。例如，如果几家寡头通过订立并实行协议，限制产量，制定垄断高价，则称这种博弈为合作博弈。若寡头们在市场竞争中没有达成有约束里的协议，每个企业仅仅是在考虑到

博弈论基础结课论文

《博弈论基础》课程结课论文学生姓名：张文学号：120203111 班级：工业工程121 学院：经济管理学院论文题目：浅谈占优策略和零和博弈

2015年5月

1．博弈论的基本概念 1.1 博弈论的含义博弈论是指研究多个个体或团队之间在特定条件制约下的对局中利用相关方的策略，而实施对应策略的学科。有时也称为对策论，或者赛局理论，是研究具有斗争或竞争性质现象的理论和方法，它是应用数学的一个分支，既是现代数学的一个新分支，也是运筹学的一个重要学科。目前在生物学、经济学、国际关系学、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。主要研究公式化了的激励结构（游戏或者博弈）间的相互作用。 1.2博弈的结构要素局中人：在一场竞赛或博弈中，每一个有决策权的参与者成为一个局中人。只有两个局中人的博弈现象称为“两人博弈”,而多于两个局中人的博弈称为“多人博弈”。策略：一局博弈中，每个局中人都有选择实际可行的完整的行动方案，即方案不是某阶段的行动方案，而是指导整个行动的一个方案，一个局中人的一个可行的自始至终全局筹划的一个行动方案，称为这个局中人的一个策略。如果在一个博弈中局中人都总共有有限个策略，则称为“有限博弈”，否则称为“无限博弈”。得失：一局博弈结局时的结果称为得失。每个局中人在一局博弈结束时的得失，不仅与该局中人自身所选择的策略有关，而且与全局中人所取定的一组策略有关。所以，一局博弈结束时每个局中人的“得失”是全体局中人所取定的一组策略的函数，通常称为支付函数。

次序：各博弈方的决策有先后之分，且一个博弈方要作不止一次的决策选择，就出现了次序问题；其他要素相同次序不同，博弈就不同。博弈涉及到均衡：均衡是平衡的意思，在经济学中，均衡意即相关量处于稳定值。在供求关系中，某一商品市场如果在某一价格下，想以此价格买此商品的人均能买到，而想卖的人均能卖出，此时我们就说，该商品的供求达到了均衡。所谓纳什均衡，它是一稳定的博弈结果。 2．用博弈论分析生活中长见的问题 2.1占优策略占优策略: 每一个博弈中的企业通常都拥有不止一个竞争策略，其所有策略的集合构成了该企业的策略集。在企业各自的策略集中，如果存在一个与其他竞争对手可能采取的策略无关的最优选择。我们首先用博弈论的方法来分析美团外卖和饿了么在各大高校竞争中的博弈。假设两家网站都只采用赠饮料方式来吸引同学们订购外卖。两家网站如果都不赠饮料，则收益均为10；均赠饮料收益为5；一方赠饮料，一方不赠饮料，即赠饮料的收益为15，不赠收益为0。分析：在此次博弈中，对于饿了么，不论美团怎么做，赠饮料都是最优的，也就是饿了么的占优策略。对于美团外卖，不论饿了么怎么做，赠饮料同样是最优的，即美团的占优策

博弈论基础复习.doc

《博弈论基础》复习大纲一、名词解释(5X2 = 10分) 策略型博弈它是由三个部分组成，即局中人、策略和各种策略组合中所得到的利益。纳什均衡指参与博弈的每-局屮人在给定其他局屮人策略的条件下选择上策所构成的一种策略组合。混合策略局屮人的混合策略是其纯策略空间上的一种概率分布，表示局屮人实际博弈时根据这种概率分布在纯策略中随机选择加以实施。扩展型博弈博弈存在着局中人行动的先后次序，是对具有动态结构的决策形式进行研究的规范分析工具。博弈树对于任何一种双人完备博弈，都可以用一个博弈树来描述，并通过博弈树搜索策略寻找最佳解。博弈树类似于状态图和问题求解搜索中使用的搜索树。完美信息博弈是指一次只有一个局中人在行动，而且他在行动时知道博弈的所有以往行动历史的一类特殊博弈。子博弈指由原扩展型博弈屮的一个决策节点与它的所冇后续节点组成的博弈。行为策略是指每一个参与人在每一个信息集上随机的选择行动。逆向归纳法逆向归纳法是求解子I■専弈精炼纳什均衡的最简便方法。在求解子博弈精炼纳什均衡时，从最后一个子博弈开始逆推上。冷酷策略又称触发策略。指参与人在开始时选择合作，在接下来的博弈中，如果对方合作则继续合作，而如果对方一旦背叛，则永远选择背叛，永不合作。类型一般地，将一个参与人所拥有的所有私人信息称为他的类型。静态贝叶斯均衡是-种与类型有关的策略组合，其屮每个局屮人在给定自己类型和其它局屮人策略的情况下最大化自己的期果效用函数。信号博弈是研究具有信息传递作用的信号机制的一般傅弈模型，其基本特征是两个I■専弈方，分别称为信号发出方和信号接收方。

博弈论基础复习

〈〈博弈论基础》主要知识点一、名词解释（5X 2= 10分）策略型博弈它是由三个部分组成，即局中人、策略和各种策略组合中所得到的利益。仑内什均衡指参与博弈的每一局中人在给定其他局中人策略的条件下选择上策所构成的一种策略组合。混合策略局中人的混合策略是其纯策略空间上的一种概率分布，表示局中人实际博弈时根据这种概率分布在纯策略中随机选择加以实施。扩展型博弈博弈存在着局中人行动的先后次序，是对具有动态结构的决策形式进行研究的规范分析工具。博弈树对于任何一种双人完备博弈，都可以用一个博弈树来描述，并通过博弈树搜索策略寻找最佳解。博弈树类似于状态图和问题求解搜索中使用的搜索树。完美信息博弈是指一次只有一个局中人在行动，而且他在行动时知道博弈的所有以往行动历史的一类特殊博弈。子博弈指由原扩展型博弈中的一个决策节点与它的所有后续节点组成的博弈。行为策略是指每一个参与人在每一个信息集上随机的选择行动。逆向归纳法逆向归纳法是求解子博弈精炼纳什均衡的最简便方法。在求解子博弈精炼纳什均衡时，从最后一个子博弈开始逆推上。冷酷策略又称触发策略。指参与人在开始时选择合作，在接下来的博弈中，如果对方合作则继续合作，而如果对方一旦背叛，则永远选择背叛，永不合作。类型：一般地，将一个参与人所拥有的所有私人信息称为他的类型。信号博弈是研究具有信息传递作用的信号机制的一般博弈模型，其基本特征是两个博弈方，分别称为信号发出方和信号接收方。分离均衡信号博弈中的完美贝叶斯均衡之一，这种均衡中不同类型的发送者以概率i选择不同的信号，接收者完全可以通过信号来准确判断出发送者的类型。混同均衡信号博弈中的完美贝叶斯均衡之一，这种均衡中不同类型的发送者选择了相同的信号，接收者无法从信号中得到新的信息，无法对先验信念进行修正。特征函数特征函数型博弈对每一种可能联盟给出相应的联盟总和收益，也就是给出了一种集合函数，称为特征函数。联盟

博弈论基础及其应用

第一讲博弈论基础及其应用一．要学点博弈论 1.几个富有启发性的案例（1）商家作出最低价格承诺的真相是什么？所谓最低价格承诺是指商家承诺自己的价格比任何对手都低，一旦有对手的价格比自己低，作承诺的商家将退回差额，并且承诺支付一定金额的违约罚金。思考：商家为什么要作出这种承诺呢？是为了促销或者恶性竞争吗？（2）假设有三个候选人或候选方案：x、y 和z；有三个参加投票的人：甲、乙、丙。三个人对候选对象的态度分别如下：甲：x y z；乙：y z x；丙：z x y。（注：候选对象排位越靠前，表示越喜欢）现在分别有三个投票程序：程序1，x与y先pk，然后胜利者进入下一轮与z进行pk；程序2，x与z先pk，然后胜利者进入下一轮与y进行pk；程序3，z与y先pk，然后胜利者进入下一轮与x进行pk。思考：（1）上面每个程序的最终获胜者是谁？（2）为了保证丙自己心目中最喜欢的z当选，如果丙能够操纵投票程序，他应该采用哪个投票程序？（3）如果您是甲，为了避免自己最不喜欢的丙当选，应该怎么办？（3）配硬币博弈的启示

乙甲正面反面 A.配硬币博弈属于典型的零和博弈，它的制胜要点：a,切忌自己的行为有规律性，应该使自己的策略选择具有随机性，即采用混合策略（即以某个概率分布随机选择自己的策略）而已；b,绝对不能让对手知道自己的选择，能骗则骗，博弈双方没有通过沟通、交流、谈判实现双赢的可能；c,看看对手的行为选择是否具有规律，或想方设法获知对手的选择；d,猜硬币博弈具有后发制人的优势。 B.配硬币博弈的若干重要应用场合：a,是否监控员工就有可能演变成猜硬币博弈博弈：单位有时监控员工，员工有时会偷懒或偷单位的东西；b纳税人与税务部门也可能玩猜博弈博弈：税务部门可能查税，纳税人有时偷税。c,两军对垒时最容易出现猜硬币博弈，如二战时同盟国与纳粹在确定登陆地点时就存在配硬币博弈。 (4)斗鸡博弈的启示案例白军进攻后退

期末复习博弈论基本概念

1.博弈论：研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题。一些个人或组织，面对一定的环境条件，在一定的规则下，同时或先后、一次或多次，从各自允许选择的行为或策略中进行选择并加以实施，各自取得相应结果的过程。本质为存在策略依存性的决策问题。 2.博弈与一般决策的区别：决策论在技术分析上将对方（其他参与人）的情况列入自己的约束条件，作为一个环境因素对待，将对方的影响作为外生变量处理，未考虑对自己效用的直接的主动的影响。 3.博弈模型的要素 a)参与人（局中人、博弈方）：博弈中的决策主体。他的目的是通过选择策略以最大化自己的支付（效用）水平。虚拟参与人（自然）：指决定外生的随机变量的概率分布的机制。自然作为虚拟参与人没有自己的支付与目标函数，即所有的结果对他来说都是无差异的。 b)策略：参与人在给定信息集（信息集包含了一个参与人有关其他参与人之前行动的知识，可理解为参与人在特定时刻有关变量值的知识。一个参与人无法准确指导的变量全体属于一个信息集）的情况下的行动规则。它规定参与人在什么时候选择什么行动。（策略是可供局中人选择对付其他局中人的完整行动方案）各参与人的策略选择范围称为策略空间（策略集）。每个博弈方各选一个策略构成一个策略组合（局势） c)博弈过程：各博弈方行为的顺序及博弈的规则等。关键是自己选择时能否知道其他

博弈方的选择。 d)支付（得益）函数：各策略组合下各博弈方获得的数值结果（常为效用）。表示为 Ui=Ui(s1,…,si,…,sn)。可见其不仅取决于自己的策略，还取决于他人的策略。 e)信息结构：博弈方对得益和博弈过程信息的掌握情况和程度 f)理性基础：博弈方的行为选择时以个体理性还是集体理性为基础，有完美理性还是有限理性若设定博弈时不专门设定后两个方面，就隐含假定就是完全、完美信息、完全理性的非合作博弈 4.博弈的分类（类型） a)据是否具有有约束力的协议：非合作博弈、合作博弈。（非合作博弈无约束力、核心是策略选择、追求个人优化、不注重效率；合作博弈有约束力、核心是利益分配、追求公平公正和效率） b)据理性程度：完全理性博弈、有限理性博弈。（完全理性指有完全的计算能力，不会犯错） c)据博弈过程的不同：静态博弈、动态博弈 d)据博弈方对得益信息的掌握情况：完全信息博弈、不完全信息博弈。（完全信息：指每个参与人的特征/类型、策略空间、支付函数在所有参与人中是共同知识） e)据策略数量：有限博弈（参与人数有限且策略集均为有限集）、无限博弈 f)据得益特征：零和博弈（对抗性最强）、常和博弈（对抗性较强）、变和博弈（可能出现双赢或多赢）

博弈论基础练习3

The goal of the problem set is to give you practice in mastering the course material.You are encouraged to work in groups and hand in your solutions in groups of at most3people. You,i.e.your group,must write up each problem solution by yourself.You are asked to identify all your collaborators on the front page of your solution.If you obtain a solution through research(e.g.,on Internet),you must acknowledge your source and write up the solution in your own words. It is a violation of this policy to submit a problem solution that you,i.e.any member of your group,cannot orally explain to the professor.

1.Pedro and Pablo like candies.They are good brothers,so whenever they(jointly)receive a package of candy they never?ght about how to share it,they prefer to bargain by using their special version of the ultimatum game. Their game typically goes as follows.When uncle Juan gives a package of candy to the older brother,i.e.Pedro,(and asks him to share it with his brother)Pedro becomes the proposer and gets to make an offer to Pablo.Then Pablo,the responder,either accepts or rejects the offer. If Pablo accepts the offer,then the brothers share the package of candy exactly according to Pedro’s proposal.If Pablo rejects the offer,uncle Juan gets really upset and takes the package of candy back.In these situations,uncle Juan always gives1candy to Pablo and eats the rest. Suppose that there are exactly6candies in the package and that they are indivisible. Also assume that Pablo cares about his brother,so in case he faces a choice between two equally attractive actions(for himself),he chooses the one that is better for his brother. (a)Represent the game played by Pedro and Pablo with a game tree.Write down separately the brothers’strategy sets. 1point (b)Find the subgame perfect equilibrium of the game by backward induction. 0.5points (c)Aunt Marta does not believe in subgame perfection and wonders what are the Nash equilibria of the game played by Pedro and Pablo(in pure strategies).Show that the following pair of strategies constitutes a Nash equilibrium of the game. Pedro:“offer exactly4candies to Pablo” Pablo:“accept the offer if it has at least4candies and reject it otherwise” 1point (d)Show that all of the following pairs of strategies constitute a Nash equilibrium of the game if x=1,2,3,4,5,or6. Pedro:“offer exactly x candies to Pablo” Pablo:“accept the offer if it has at least x candies and reject it otherwise” 0.5points