博弈论——完全信息动态博弈

2 完全信息的动态博弈

2.1完全和完美信息的动态博弈

动态博弈(dynamic game)：参与人在不同的时间选择行动。

完全信息动态博弈指的是各博弈方先后行动，后行动者知道先行动者的具体行动是什么且各博弈方对博弈中各种策略组合下所有参与人相应的得益都完全了解的博弈

静态博弈习惯用战略式(Strategic form representation)表述，动态博弈习惯用扩展式（Extensive form representation）表述。战略式表述的三要素：参与人集合、每个参与人的战略集合、由战略组合决定的每个参与人的支付。扩展式表述的要素包括：参与人集合、参与人的行动顺序、参与人的行动空间、参与人的信息集、参与人的支付函数、外生事件（自然的选择）的概率分布。

n人有限战略博弈的扩展式表述用博弈树来表示

(1,2) (0,3)

①结：包括决策结和终点结。决策结是参与人采取行动的时点，终点结是博弈行动路径的终点。第一个行动选择对应的决策结为“初始结”，用空心圆表示，其它决策结用实心圆表示。X表示结的集合，x X表示某个特定的结。z表示终点结，Z表示终点结集合。表示结之间的顺序关系，x x′表示x在x′之前。x之前所有结的集合称为x的前列集，x之后所有结的集合称为x的后续集。以下两种情况不允许：

前者违背了传递性和反对称性；后者违背了前列节必须是全排序的。在以上两个假设之下，每个终点结都完全决定了博弈树的某个路径。

②枝：博弈树上，枝是从一个决策结到其直接后续结的连线，每一个枝代表参与人的一个行动选择。在每一个枝旁标注该具体行动的代号。一般地，每个决策结下有多个枝，给出每次行动时参与人的行动空间，即此时有哪些行动可供选择。

③信息集（information sets）：博弈树中某一决策者在某一行动阶段具有相同信息的所有决策结集合称为一个信息集。博弈树上的所有决策结分割成不同的信息集。每一个信息集是决策结集合的一个子集(信息集是由决策结构成的集合)，该子集包括所有满足下列条件的决策结：(1)每一个决策结都是同一个参与人的决策结。(2)该参与人知道博弈进入该集合的某个决策结，但不知道自己究竟处于哪一个决策结。引入信息集的目的是为了描述当一个参与人要作出决策时他可能不知道“之前”发生的所有事情。（之前加引号是因为，博弈树中的决策结的排序并不一定与行动的时间顺序相一致）

H 表示信息集集合，h 表示一个特定的信息集。h （x ）表示包含决策结x 的信息集。h （x ）是一个信息集，意味着在x 决策的参与人不确定他处在x 结点还是其它x ′ h （x ）结点。这同时意味着一个决策结只能属于一个信息集。

信息集满足的条件：1、任何一个决策结不能是属于同一信息集的其它决策结的前列结或后续结。2、同一信息集的所有结都是同一参与人的决策结，即参与人不会将自己行动的结与他人行动的结混淆。3、一个参与人在属于同一信息集的每一个决策结的行动空间应该是相同的。

一个静态博弈的扩展式表述

一个信息集可能包含多个决策结，也可能只包含一个决策结。只

(1,2)

(0,3)

包含一个决策结的信息集称为单结信息集；如果博弈树的所有信息集都是单结的（如果有虚拟参与人自然，则所有的参与人都知道自然的行动），该博弈称为完美信息博弈(Game of perfect information)；否则就是不完美信息博弈。

完美信息(perfect information): 在博弈的每次行动的参与人完全知道博弈的历史，即每个信息集只有一个决策结。完美信息博弈意味着博弈中没有任何两个参与人同时行动，而且所有后行动者都能确切知道先行动者选择的行动，所有参与人都知道自然的行动。

完全信息（complete information）：参与人完全了解对手特征，既没有事前的不确定性。

不完全信息意味着不完美信息，但逆定理不成立。

在博弈论中，自然的信息集一般假定为单结的。因为自然是随机行动的，自然在参与人决策之后行动等价于自然在参与人决策之前行动但参与人不能观测到自然的行动。因此，博弈树上是否出现连接不同决策结的虚线取决于我们如何安排决策结的顺序。

决策结的顺序:如果知道前决策者的选择，后决策者必须出现在后面，如果不知道前决策者的选择，后决策者可以出现在后面，也可以出现在前面。

相同的博弈可以不同的博弈树表示，但同一个参与人在代表同一博弈的不同博弈树中的信息集的数量必须相同，自然除外。

博弈一般假定满足完美回忆的要求，完美回忆是指没有参与人会忘记自己以前知道的事情，所有参与人都知道自己以前的选择。

确保博弈具有完美回忆的要求：如果①x2和x1属于同一信息集；②x 是x1的前列结；③x和x1都是同一个参与人的决策结；那么，存在一个x′′（可能是x本身）满足：①x′′和x属于同一信息集；②x′′是x2的前列结；③从x到达x1的行动和x′′到达x2的行动是一样的。即必须满足“同一行动”和“同一信息集”假设。

当博弈涉及到外生不确定性事件时，我们假定“自然”以某种概率选择某个特定事件，所有参与人对于自然的选择具有相同的先验概率。即所谓的“海萨尼公理”。

均衡结果有三个（进入，默许）、（不进入，斗争）、（不进入、默许）

定理：一个有限完美信息博弈有一个纯战略纳什均衡（zermelo,1913; kuhn,1953）。

策略的可置信性问题：策略是博弈方自己预先设定的，在各个博弈阶段针对各种情况所作的相应行为选择的计划，本身没有强制力，且实施起来有一个过程。在该过程中，根据自己的利益需要，他完全可以改变这个计划，从而存在“相机选择”，产生策略的可置信性问题。

2.1.A 子博弈精炼纳什均衡、逆向归纳法

“子博弈精炼纳什均衡”（subgame perfect Nash equilibrium，selten，1965），用于区分动态博弈中的“合理纳什均衡”与“不合理纳什均衡”，将纳什均衡中包含有不可置信威胁策略的均衡剔除出去，就是说，使最后的均衡中不再包含有不可置信威胁策略的存在。

子博弈：一个扩展式表示博弈的子博弈G是由一个单结信息集x 开始的与所有该决策结的后续结(包括终点结)组成的能自成一个博弈的原博弈的一部分。要求：①x是一个单结信息集；②子博弈的信息集和支付向量都直接继承自原博弈；③子博弈不能切割原博弈的信息集。

任何博弈本身称为其自身的子博弈。

扩展式博弈的战略组合s*=（s*1，…，s*i , …，s*n）是一个子博弈精炼纳什均衡，如果：（1）它是原博弈的纳什均衡；（2）它在每一个子博弈上给出纳什均衡。简单的讲，一个战略组合是子博弈精炼纳什均衡，当且仅当他在每一个子博弈（包括原博弈）上都构成一个纳什均衡。如果整个博弈是唯一的子博弈，那么纳什均衡与子博弈精炼纳什均衡相同，如果有其它子博弈，则有些纳什均衡可能不构成子博弈精

炼纳什均衡。

（开发，{不开发，开发}）是唯一一个子博弈精炼纳什均衡

均衡路径（equilibrium path ）：纳什均衡所在的路径。其它的路径都是该纳什均衡的非均衡路径（off-equilibrium path ）。

构成子博弈精炼纳什均衡的战略不仅在均衡路径上是最优的，而且在非均衡路径上也是最优的。这是纳什均衡与子博弈精炼纳什均衡的实质区别。

只有当一个战略规定的行动规则在所有可能的情况下都是最优的时，它才是一个合理的、可置信的战略。

序贯理性（sequential rationality ）：不论过去发生了什么，参与人应该在博弈的每一个时点上最优化自己的决策。

子博弈精炼纳什均衡求法——逆向归纳法求解

对于我们现在所讨论的有限完美信息动态博弈，逆向归纳法是求解子博弈精炼纳什均衡的最简便方法。在求解子博弈精炼纳什均衡时，从最后一个子博弈开始逆推上去，这就是逆向归纳法。所以逆向归纳法就是从动态博弈的最后一个阶段或最后一个子博弈开始，逐步向前倒推以求解动态博弈均衡的方法。逆向归纳法是重复剔出劣战略方法在扩展式博弈中的应用。

逆向归纳法不适合于无限博弈和不完美信息博弈。

简单的完全和完美信息博弈： 1. 参与人 1 选择行动a 1

2. 参与人 2 观察a 1，然后选择a 2

3. 收益是 u 1(a 1, a 2)和u 2(a 1, a 2)

求解博弈: 逆向归纳法 (backward induction) 1. 求解第二个阶段，对于a 1，求a 2

2max A a ∈u 2(a 1，a 2)

其解: a 2= R 2(a 1) ---- 反应函数 2. 求解第一个阶段

m a x A

a ∈ u 1(a 1，R 2(a 1)) 其解: a *1

逆向归纳解(outcome): (a *1, R 2(a *1) )

注意：

在动态博弈中，行动与战略是不同的概念；逆向归纳解与纳什均衡是不同的概念。

例１

L R

0 L'R'

1 L''R''

3 0

0 2

用逆向归纳法:

第3步：参与人1 选择L'';

第2步：参与人2 选择L'；

第1步：参与人1 选择L

逆向归纳解: L(在第一个阶段结束)。

如果博弈在第一个阶段中不结束，可能原因是什么?

甲在开采一价值4万元的金矿时缺1万元资金，而乙正好有1万元资金可以投资。甲希望乙能将1万元资金借给自己用于开矿，并许诺在采到金子后与乙对半分成，乙是否该将钱借给甲呢？

关于逆向归纳法的理性假定：所有参与人是理性的是所有参与人的共同知识

2.1.B Stackelberg 模型（1934）

二个企业，生产产量: q1, q2

市场需求: P = a–Q, 其中Q = q1 + q2

成本: C i (q i) = cq i, i = 1, 2.

利润：πi (q1, q2) = Pq i–C i (q i) = (a– (q1 + q2))q i–cq i，

博弈的顺序：

(1) 企业1 选择q1≥ 0；

(2) 企业2 观察q1然后选择q2≥ 0；

(3) 收益: πi(q i, q j) = q i [P(Q) –c]，其中P(Q) = a–Q, Q = q1 + q2

求逆向归纳解

(1)阶段2，企业2在观察q1后选择q2满足

2max ≥q q 2 (a – (q 1 + q 2) – c )

解出q 2 = R 2 (q 1) = 2

q a --

(2)阶段1，企业 1预测到R 2 (q 1)，求q 1

1max ≥q q 1 (a – (q 1 + R 2 (q 1))– c )

1max ≥q q 1

q a -- 解出

q 1* =2c a -, q 2* =4c a -，π1*=2()8a c -π2*= 2

()16

a c -

与 Cournot 模型比较

q 1* = q 2* =3c

a -，π1*=π2*= 9

)(2c a -

结果：先进入市场者有更多的利润。即所谓的先动优势（first-mover advantage ），如果企业选择的是价格而不是产量，得到的将是后动优势（second-mover advantage ）。

同时，该例还说明，拥有信息优势可能使局中人处于劣势（后动者拥有更多信息），而这在单人决策论中是不可能的。企业2处于劣势是因为它在行动前已知企业1的产量，而企业1在开始行动时也知如此。但若企业2不知企业1的产量且企业1也知如此，则即使企业1先行动，博弈也是古诺均衡的而非Stackelberg 均衡的，企业2反而获益，企业1的先动优势就不存在了。

企业1先生产产量就是一种承诺行动，生产出来的产量是沉淀成本，从而使企业2不得不认为它的威胁是可置信的。如果企业1只是宣布它将生产*12

a c

q -=。企业2不会相信它的威胁，因若企业2相信它的威胁而选42c a q -=

，给定此2q ，企业1的最优选择是8

)

(31c a q -=而

不是2

a q -=

Stackelberg 均衡与古诺均衡的比较

承诺行动：

一个博弈模型的均衡与博弈模型中各个局中人的战略空间或行动空间有关，当我们改变博弈模型中一些局中人的战略空间或行动空间时，也就改变了博弈的均衡。在一个博弈中，倘若某局中人希望一个本属含有不可置信威胁或承诺的行动的非精炼均衡能真正发生，他可以通过改变其行动空间（通常是减小其行动空间或战略空间）使其威胁或承诺变得可置信，从而将原本非精炼的均衡变成精炼的均衡，这类局中人改变其行动或战略空间的行为被称为“承诺行动”（Commitment action ）。

破釜沉舟完全承诺不完全承诺

(-3,-3) (1,-4) (0,1) (0,-4)

2.1.C 工会与企业的工资和就业

经济学家Leontief 于1946年提出的工会模型描写了工会与厂商就工资进行谈判的机理，并就均衡的非帕累托最优性和谈判结果的不稳定性作出解释，它解释了人们所观察到的工会与厂商就工资水平所进行的经常性谈判是如何发生的（Leonfief, 1946）。

一个企业和一个工会，关于工资w 和就业数量L 的决定。局中人1—工会：战略空间为{}w 提出工资水平局中人2—厂商：战略空间为{}L 决定工人雇用量

工会收益: U (w , L ); 假设

0>??w U ，0>??L

，企业收益: π(w , L ) = R (L ) – wL ，R '(0) = ∞ ，R '(∞) = 0，假设)(L R 是L 的增函数且为凹函数

博弈的顺序:

(1) 工会选择工资w ; (2) 企业观察 w 且选择 L .

L 工会的无差异曲线

求逆向归纳解 (1) 阶段 2

企业对w ，选择L 求

max [R (L ) – wL ] 一阶条件

R '(L ) – w = 0，因为，R '(0) = ∞ ，R '(∞) = 0，即),0[)(∞∈'L R ，解出**()L L w = '()0L W <

R (L ) wL

L (w ) L

利用等利润曲线 π = R (L ) – wL 分析：

1. w = (R (L ) – π)/L ，等利润线的位置越高，利润越小，因它对应同样的L 却付出更高的工资。

2. dw /dL = [R '(L ) – w ]/L ，随L 增加，等利润曲线先是正斜率，然后是负斜率。等利润线是凹的

3. 企业的选择在等利润线的顶点上。因为R '(L ) – w = 0

w L (w )

(2) 阶段 1

工会选*w 使))(,(***w L w U 达到最大化，即工会在第一阶段的问题

是：))(,(max *0

w L w U w ≥ 一阶条件：U w + U L L ′(w)=0 或 ()w

U L w U '-

= w

w E

工会无差异曲线

)(*w L

)(w L L

)(*w L 曲线与无差异曲线的切点决定均衡点

逆向归纳解 (w *, L (w *))

w L (w )

此结果是非最优的(inefficient)。帕累托最优的条件：

() -w

L W L

U R L w L U ππ'=-

此条件是下列最优化问题的解：(,)(())

..0,0

MaxU w L R L wL s t L w -≥≥

2.1.D 序贯谈判：讨价还价博弈

假设两人就如何分配1万元现金进行谈判，规则是这样，首先由甲提出一个分割比例，对甲提出的比例乙可以接受也可以不接受；如果乙不接受则他应提出另一个方案，让甲选择接受与否……。假设该博弈为三阶段讨价还价博弈，即第三回合甲的方案具有强制约束力。

第三回合、甲的方案是自己得S ＝10000。第二回合，乙出价S 2满足：

222,S S S S

δδδ==甲：即222210000100001000010000S S S S δδδδδδδ=>-乙：（－）（－）=－

第一回合，甲出价S1满足：211000010000S S δδ-满足乙：－＝

211000010000S S δδ=-+即甲的得益：

0.51δδ<<当时，越大，甲的得益越大，乙的得益越小 00.5δδ<<当时，越大，甲的得益越小，乙的得益越大

三期的谈判模型

参与人 1 和参与人 2 谈判分配一元钱 (s , 1 – s ). (1a) 参与人 1 提议分配方案：(s 1, 1 – s 1 )；

(1b) 参与人 2接受提议或拒绝提议。如果参与人2拒绝，进入第2阶段;

(2a) 参与人2提议 (s 2, 1 – s 2 )

(2b) 参与人 1接受提议或拒绝提议。如果参与人1拒绝，进入第3阶段；

(3) 按外生方案分配，参与人 1 分得s ，参与人2分得1–s 。贴现率: δ

求逆向归纳解 (1) 在阶段 2

如果s 2 ≥ δs 参与人 1 将会接受s 2。取s 2 = δs ，则1 – s 2 ≥ δ(1 – s )。

结果: 参与人 2 将会提议 s *2 = δs ，参与人 1 将会接受。 (2) 在阶段 1

如果 1 – s 1 ≥ δ(1 – s *2) 即 s 1 ≤ 1 – δ(1 – s *2 ) , 参与人 2 将会接受 s 1

当 s 1 = 1 – δ(1 – s *2 )， s 1 ≥ δs *2

结果: 参与人 1 将会提出

s *1 = 1 – δ(1 – s *2 ) = 1 – δ(1 –δs ) 参与人 2 将会接受 1 – s *1. 逆向递归解为[1 – δ(1 –δs )， δs ]

讨价还价模型与Rubinstein 定理

当讨价还价博弈是无限次进行时，逆向归纳法不能直接使用，但我们可以运用逆向归纳法的思想以及博弈树在自身结构上的自相似性（即每一个子博弈在结构上相似于原博弈）解出其唯一的子博弈精炼均衡，这就是著名的Rubinstein （1982）定理。

若∞=T ，则轮流出价的讨价还价博弈有唯一的子博弈精炼纳什均衡，其均衡结果为

*11δδδ--=

x 当δδδ==21时，δ

11*x 假定在3≥t 由1出价且1能得到的最大份额为M 。 1在t 得到的M 对1来说等价于他在1-t 得到M 1δ

故2在1-t 出价M x 12δ≥时，1必接受，而2不会出比M 1δ更多的给1，故2在1-t 出价M x 12δ=对2是最优的，2获得M 11δ-。

在2-t ，2的最大支付贴现值为)1(12M δδ-，1在2-t 出价

)1(1121M x δδ-≥-时，2会接受，而1不会出比此更多的给2，故1出

价)1(1121M x δδ-=-，1的最大获取为211(1)M δδ--。

因为从2-t 开始的博弈与从t 开始的博弈完全相同，故1在2-t 能得到的最大份额一定与其在t 能得到的最大份额相同，所以

)1(112M M δδ--= 得 2

11δδδ--=

M 再设1在t 能得到的最小份额为m ，类似推理可得 M m =--=

11δδδ

因总有M x m ≤≤，而M m =，故必有2

11δδδ--===M m x 。当δδδ==21时，δ

+=11*x

2.1.D 货币政策的动态不一致性

模型中的局中人有两个，一是公众，其战略空间为所选择的各种预期通胀率；二是政府，其战略空间为在给定公众预期通胀率下所能选择的实际通胀率（货币政策）。

博弈行动顺序为：公众先动，政府在观察到公众的选择后行动。支付函数：政府同时关心通胀与失业问题（宏观经济政策的两大目标），故设政府的单阶段效用函数为

22(,)()M y c y ky ππ=---，1,0>>k c

博弈论

博弈论 1 引言博弈论包括局中人，策略和支付函数三个要素。有n个局中人参入的博弈称为n人博弈, n≥ 2。每个局中人有个支付函数，其收益或损失由所有局中人的策略按照该支付函数计算。每个局中人采用的策略可以是其多个策略中的某一个，或者是策略的某种概率分布。前者称为纯策略博弈，后者称为混合策略博弈。纯策略可以看作是混合策略的特殊情形。根据局中人之间的关系，博弈分为合作博弈和非合作博弈。每个局中人都希望使自己的利益最大化。但是在非合作博弈中，由于局中人的利益是互相冲突的，只能寻求一组策略使每个局中人较为满意。一组策略是指由每个局中人的一种策略构成的策略组合。如果存在一个策略组合，无论那个局中人单方面地改变其策略，不会使其收益增加，只可能使其收益减少，这个策略组合就叫做納什均衡（或納什均衡解、納什均衡点）。以下是关于納什均衡的正式定义及其存在性定理（见[1]）。 Formal definition Let (S,f) be a game with n players, where S i is the strategy set for player i, S = S1?S2?…?S n is the set of strategy profiles and f = (f1(x), f2(x), … , f n(x)) is the payoff function for x∈S. Let x i be a strategy profile of player i and x-i be a strategy profile of all players except for player i. When each player i∈ {1, 2, … , n} chooses strategy x i resulting in strategy profile x = (x1, x2, … , x n) then player i obtains payoff f i(x). Note that the payoff depends on the strategy profile chosen, i.e., on the strategy chosen by play i as well as the strategies chosen by all the other players. A strategy profile x*∈S is a Nash Equilibrium (NE) if no unilateral deviation in strategy by any single player is profitable for the player, that is ?i, x i∈S i: f i(x i*, x-i*) ≥f i(x i, x-i*). Nash’s Existence Theorem If we allow mixed strategies, then every game with a finite many pure strategies has at least one Nash Equilibrium.（有限策略的非合作n人博弈至少有一个納什均衡） 2 二人博弈 2.1 纯策略博弈局中人I有m个策略A1, A2, … , A m，局中人II有n个策略B1, B2, … ,B n，不同策略下双方的收益如表2.1所示([2]p72)。表2.1 二人博弈的收益表由每个单元格中前一个数字构成的矩阵A = (a ij)m?n是局中人I的收益矩阵，由后一个数

完全信息和不完全信息-博弈论相关

3、完全信息和不完全信息：完全信息博弈的基本假设：所有参与人都知道博弈的结构、博弈的规则，知道博弈支付函数。在不完全信息博弈里，至少有一个参与人不知道其他参与人的支付函数。温泉信息是指自然不首先行动或自然的促使行动被所有参与人观测到的情况，即没有事前的不确定性。显然不完全信息意味着不完美信息，但逆命题不成立。 12、完美和不完美信息：不完美信息指的是自然做出了它的选择，但是其他选择人并不知道它的具体选择是什么，金知道各种选择的概率分布。完美信息：指一个参与人对其他参与人（包括虚拟参与人“自然”）的行动选择有准确了解的情况，即每一个信息集只包含一个值。 2、贝叶斯均衡：是纳什均衡在不完全信息博弈中的自然扩展。在静态不完全信息博弈中，参与人同时行动么有机会观察到别人的选择。给定别人的战略选择，每个参与人的概率分布而不知道其真实类型不可能准确的知道其他参与人实际上会选择什么策略，但是它能正确预测到其他参与人的选择如何以来与其各自的类型。这样，他决策的目标就是在给定自己的类型和别人的类型已从战略情况下最大化自己的期望效用 14、PBNE贝叶斯纳什均衡是这样一种类型依从战略组合：给定自己的类型和别人类型的概率分布的情况下，每个参与人的期望效用达到了最大化，也就是说没有人有积极性选择其他战略。贝叶斯纳什均衡：P147 4、有限次重复博弈： 16、重复博弈是指同样结构的博弈重复多次，其中每次博弈成为“阶段博弈”。定理：令G是阶段博弈，G(T)是G重复T次的重复博弈（T小于正无穷）。那么，如果G有唯一的纳什均衡，重复博弈G（T）的唯一的子博弈纳什均衡结果是阶段博弈G的纳什均衡重复T次（即每个阶段博弈出现的都是一次性博弈的均衡结果）。 7、激励相容：当参与人之间存在信息不对称时，任何一种有效的制度安排都必须满足“激励相容”条件。激励相容约束也是委托人设计机制时要考虑的第二个约束：给定委托人不知道代理人的类型时，代理人在所涉及的机制下必须有积极性选择委托人希望他选择的行动。显然，只有代理人选择委托人所希望的行动是得到的期望效用不小于他选择其他行动是得到的期望效用时，代理人才有积极性选择委托人所希望的行动。满足激励相容约束的机制称为可实施机制。 8、似然率f l/f h：统计学上，似然率度量给定代理人选择a=L时PAI发生的概率与给定代理人选定a=H是PAI发生的概率的比率，它告诉观测者观测到的PAI在多

博弈论分析

中美军备竞赛的博弈分析 1.理论介绍 1.1博弈论的概念博弈论（Game Theory），亦名“对策论”、“赛局理论”，属应用数学的一个分支，博弈论已经成为经济学的标准分析工具之一。目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。博弈论主要研究公式化了的激励结构间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。 1.2博弈论的主要特点博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。表面上不同的相互作用可能表现出相似的激励结构(incentive structure)，所以他们是同一个游戏的特例。其中一个有名有趣的应用例子是囚徒困境悖论(Prisoner's dilemma)。具有竞争或对抗性质的行为成为博弈行为。在这类行为中，参加斗争或竞争的各方各自具有不同的目标或利益。为了达到各自的目标和利益，各方必须考虑对手的各种可能的行动方案，并力图选取对自己最为有利或最为合理的方案。比如日常生活中的下棋，打牌等。博弈论就是研究博弈行为中斗争各方是否存在着最合理的行为方案，以及如何找到这个合理的行为方案的数学理论和方法。 1.3博弈的分类博弈的分类根据不同的基准也有不同的分类。一般认为，博弈主要可以分为合作博弈和非合作博弈。合作博弈和非合作博弈的区别在于相互发生作用的当事人之间有没有一个具有约束力的协议，如果有，就是合作博弈，如果没有，就是非合作博弈。从行为的时间序列性，博弈论进一步分为静态博弈、动态博弈两类：静态博弈是指在博弈中，参与人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动；动态博弈是指在博弈中，参与人的行动有先后顺序，且后行动者能够观察到先行动者所选择的行动。通俗的理解："囚徒困境"就是同时决策的，属于静态博弈；而棋牌类游戏等决策或行动有先后次序的，属于动态博弈。按照参与人对其他参与人的了解程度分为完全信息博弈和不完全信息博弈。完全博弈是指在博弈过程中，每一位参与人对其他参与人的特征、策略空间及收益函数有准确的信息。不完全信息博弈是指如果参与人对其他参与人的特征、策略空间及收益函数信息了解的不够准确、或者不是对所有参与人的特征、策略空间及收益函数都有准确的信息，在这种情况下进行的博弈就是不完全信息博弈。目前经济学家们现在所谈的博弈论一般是指非合作博弈，由于合作博弈论比非合作博弈论复杂，在理论上的成熟度远远不如非合作博弈论。非合作博弈又分为：完全信息静态博弈，完全信息动态博弈，不完全信息静态博弈，不完全信息动态博弈。与上述四种博弈相对应的均衡概念为：纳什均衡(Nash equilibrium），子博弈精炼纳什均衡（sub game perfect Nash equilibrium），贝叶斯纳什均衡(Bayesian Nash equilibrium），精炼贝叶斯纳什均衡(perfect Bayesian Nash equilibrium）。博弈论还有很多分类，比如：以博弈进行的次数或者持续长短可以分为有限博弈和无限博弈；以表现形式也可以分为一般型（战略型）或者展开型等等。 1.4纳什均衡纳什均衡的定义：在博弈G=﹛S1，…，Sn：u1，…，un﹜中，如果由各个博弈方的各一个策略组成的某个策论组合（s1*，…，sn*）中，任一博弈方i的策论si*，都是对其余博

完全信息和不完全信息博弈论相关

3、完全信息与不完全信息: 完全信息博弈的基本假设:所有参与人都知道博弈的结构、博弈的规则,知道博弈支付函数。在不完全信息博弈里,至少有一个参与人不知道其她参与人的支付函数。温泉信息就是指自然不首先行动或自然的促使行动被所有参与人观测到的情况,即没有事前的不确定性。显然不完全信息意味着不完美信息,但逆命题不成立。 12、完美与不完美信息: 不完美信息指的就是自然做出了它的选择,但就是其她选择人并不知道它的具体选择就是什么,金知道各种选择的概率分布。完美信息:指一个参与人对其她参与人(包括虚拟参与人“自然”)的行动选择有准确了解的情况,即每一个信息集只包含一个值。 2、贝叶斯均衡: 就是纳什均衡在不完全信息博弈中的自然扩展。在静态不完全信息博弈中,参与人同时行动么有机会观察到别人的选择。给定别人的战略选择,每个参与人的概率分布而不知道其真实类型不可能准确的知道其她参与人实际上会选择什么策略,但就是它能正确预测到其她参与人的选择如何以来与其各自的类型。这样,她决策的目标就就是在给定自己的类型与别人的类型已从战略情况下最大化自己的期望效用 14、PBNE贝叶斯纳什均衡就是这样一种类型依从战略组合:给定自己的类型与别人类型的概率分布的情况下,每个参与人的期望效用达到了最大化,也就就是说没有人有积极性选择其她战略。贝叶斯纳什均衡:P147 4、有限次重复博弈: 16、重复博弈就是指同样结构的博弈重复多次,其中每次博弈成为“阶段博弈”。定理:令G就是阶段博弈,G(T)就是G重复T次的重复博弈(T小于正无穷)。那么,如果G有唯一的纳什均衡,重复博弈G(T)的唯一的子博弈纳什均衡结果就是阶段博弈G的纳什均衡重复T次(即每个阶段博弈出现的都就是一次性博弈的均衡结果)。 7、激励相容:当参与人之间存在信息不对称时,任何一种有效的制度安排都必须满足“激励相容”条件。激励相容约束也就是委托人设计机制时要考虑的第二个约束:给定委托人不知道代理人的类型时,代理人在所涉及的机制下必须有积极性选择委托人希望她选择的行动。显然,只有代理人选择委托人所希望的行动就是得到的期望效用不小于她选择其她行动就是得到的期望效用时,代理人才有积极性选择委托人所希望的行动。满足激励相容约束的机制称为可实施机制。 8、似然率f l/f h:统计学上,似然率度量给定代理人选择a=L时PAI发生的概率与给定代理人选定a=H就是PAI发生的概率的比率,它告诉观测者观测到的PAI在多大

博弈论基础作业及答案【最新资料】

博弈论基础作业一、名词解释纳什均衡占优战略均衡纯战略混合战略子博弈精炼纳什均衡贝叶斯纳什均衡精炼贝叶斯纳什均衡共同知识见PPT 二、问答题 1.举出囚徒困境和智猪博弈的现实例子并进行分析。囚徒困境的例子：军备竞赛；中小学生减负；几个大企业之间的争相杀价等等；以中小学生减负为例：在当前的高考制度下，给定其他学校对学生进行减负，一个学校最好不减负，因为这样做，可以带来比其他学校更高的升学率。给定其他学校不减负，这个学校的最佳应对也是不减负。否则自己的升学率就比其他学校低。因此，不论其他学校如何选择，这个学校的最佳选择都是不减负。每个学校都这样想，所以每个学校的最佳选择都是不减负，因此学生的负担越来越重。请用同样的方法分析其他例子。智猪博弈的例子：大企业开发新产品；小企业模仿；股市中，大户搜集分析信息，散户跟随大户的操作策略以股市为例：给定散户搜集资料进行分析，大户的最佳选择是跟随。而给定散户跟随，大户的最佳选择是自己搜集资料进行分析。但是不论大户是选择分析还是跟随，散户的最佳选择都是跟随。因此如果大户和散户是聪明的，并且大户知道散户也是聪明的，那么大户就会预见到散户会跟随，而给定散户跟随，大户只有自己分析。请用同样的方法分析其他例子。 2.请用博弈论来说明“破釜沉舟”和“穷寇勿追”的道理。破釜沉舟是一个承诺行动。目的是要断绝自己的退路，让自己无路可退，让自己决一死战变得可以置信。也就是说与敌人对决时，只有决一死战，这样才可以取得胜利。否则，如果不破釜沉舟，那么遇到困难时，就很有可能退却，也就无法取得胜利。穷寇勿追就是要给对方一个退路，由于有退路，对方就不会殊死抵抗。否则，对方退无可退，只有坚决抵抗一条路，因而必然决一死战。自己也会付出更大的代价。

博弈论论文--非合作博弈论

非合作博弈论博弈论也叫对策论，是现代微观经济学的基础领域之一，主要研究在彼此互动的情形下个人是如何做决策的。近年来它已经被广泛地应用于商业、政治、社会学等其他社会科学的分析中。博弈的分类根据不同的基准也有不同的分类。一般认为，博弈主要可以分为合作博弈和非合作博弈。合作博弈和非合作博弈的区别在于相互发生作用的当事人之间有没有一个具有约束力的协议，如果有，就是合作博弈，如果没有，就是非合作博弈。 1950年和1951年纳什的两篇关于非合作博弈论的重要论文，彻底改变了人们对竞争和市场的看法。他证明了非合作博弈及其均衡解，并证明了均衡解的存在性，即著名的纳什均衡。从而揭示了博弈均衡与经济均衡的内在联系。纳什的研究奠定了现代非合作博弈论的基石，后来的博弈论研究基本上都沿着这条主线展开的。 1944年冯·诺依曼与奥斯卡·摩根斯特恩合著的巨作《博弈论与经济行为》出版，标志着现代系统博弈理论的的初步形成。尽管对具有博弈性质的问题的研究可以追溯到19世纪甚至更早。例如，1838年古诺（Cournot）简单双寡头垄断博弈；1883年伯特兰和1925年艾奇沃奇思研究了两个寡头的产量与价格垄断；2000多年前中国著名军事家孙武的后代孙膑利用博弈论方法帮助田忌赛马取胜等等都属于早期博弈论的萌芽，其特点是零星的，片断的研究，带有很大的偶然性，很不系统。冯·诺依曼和摩根斯特恩的《博弈论与经济行为》一书中提出的标准型、扩展型和合作型博弈模型解的概念和分析方法，奠定了这门学科的理论基础。合作型博弈在20世纪50年代达到了巅峰期。然而，诺依曼的博弈论的局限性也日益暴露出来，由于它过于抽象，使应用范围受到很大限制，在很长时间里，人们对博弈论的研究知之甚少，只是少数数学家的专利，所以，影响力很有限。正是在这个时候，非合作博弈—“纳什均衡”应运而生了，它标志着博弈论的新时代的开始！纳什不是一个按部就班的学生，他经常旷课。据他的同学们回忆，他们根本想不起来曾经什么时候和纳什一起完完整整地上过一门必修课，但纳什争辩说，至少上过斯蒂恩罗德的代数拓扑学。斯蒂恩罗德恰恰是这门学科的创立者，可是，没上几次课，纳什就认定这门课不符合他的口味。于是，又走人了。然而，纳什毕竟是一位英才天纵的非凡人物，他广泛涉猎数学王国的每一个分支，如拓扑学、代数几何学、逻辑学、博弈论等等，深深地为之着迷。纳什经常显示出他与众不同的自信和自负，充满咄咄逼人的学术野心。1950年整个夏天纳什都忙于应付紧张的考试，他的博弈论研究工作被迫中断，他感到这是莫大的浪费。殊不知这种暂时的“放弃”，使原来模糊、杂乱和无绪的若干念头，在潜意识的持续思考下，逐步形成一条清晰的脉络，突然来了灵感！这一年的10月，他骤感才思潮涌，妙笔生花。其中一个最耀眼的亮点就是日后被称之为“纳什均衡”的非合作博弈均衡的概念。纳什的主要学术贡献体现在1950年和1951年的两篇论文之中(包括一篇博士论文)。1950年他才把自己的研究成果写成题为“非合作博弈”的长篇博士论文，1950年11月刊登在美国全国科学院每月公报上，立即引起轰动。说起来这全靠师兄戴维·盖尔之功，就在遭到冯·诺依曼贬低几天之后，他遇到盖尔，告诉他自己已经将冯·诺依曼的“最小最大原理”推到非合作博弈领域，找到了普遍化的方法和均衡点。盖尔听得很认真，他终于意识到纳什的思路比冯·诺伊曼的合作博弈的理论更能反映现实的情况，而对其严密优美的数学证明极为赞叹。盖尔建议他马上整理出来发表，以免被别人捷足先登。纳什这个初出茅庐的小子，根本不知道竞争的险恶，从未想过要这么做。结果还是盖尔充当了他的“经纪人”，代为起草致科学院的短信，系主任列夫谢茨则亲自将文稿递交给科学院。纳什写的文章不多，就那么几篇，但已经足够了，因为都是精品中的精品。这一点也是值得我们深思的。国内提一个教授，要求在“核心的刊物”上发表多少篇文章。按照这个标准可能纳什还不一定够资格。 1996年诺贝尔经济学奖得主莫尔里斯当牛津大学艾奇沃思经济学讲座教授时也没有发

博弈论各章节课后习题答案 (4)

第四章谈判与协调 1.帕累托占优均衡和纳什均衡的关系是什么? 纳什均衡的基本思想是：每一个局中人选择一个策略，由所有局中人的策略构成了一个策略组合；在其它局中人选定策略不变的情况下，若某一个局中人单独地违背自己已选的策略，那么他的收益只会下降（或收益不会增加）。这样的策略组合构成一个均衡局势，并命名为纳什均衡。纳什均衡有纯策略的纳什均衡和混合策略的纳什均衡。一个博弈中有不止一个纳什均衡时，就构成一个多重纳什均衡问题。在多重纳什均衡下给出一些选择标准就得到一些特定的纳什均衡。其中帕累托占有纳什均衡是根据这样的选择标准选择的均衡。在博弈中，若均为G 的其纳什均衡，若满足[,{},{}]i i G N S P =12,,,m s s s ????0 i s ?，0()()i i i j P s P s ?? >1,2,,,1,2,,i n j m ==??则称为博弈G 的帕累托占优纳什均衡。可见帕累托占有纳什均衡是纳什均衡中收益最大 0i s ? 的一种均衡。 2.分别找出具有下列性质的2人博弈的例子。 (1)不存在纯策略纳什均衡； (2)至少有两个纳什均衡，并且其中之一是帕累托占优均衡。（1 ）不存在纯策略的纳什均衡：该博弈不存在纯策略的纳什均衡（2）该博弈有三个纳什均衡：（战争，战争）、（和平，和平）和一个混合策略纳什均衡。很显然，（和平，和平）是一个帕累托占优纳什均衡。 2525((,),(,77773.假设在某一产品市场上有两个寡头垄断企业，它们的成本函数分别为： TC 1=0.1q +20q 1+100000TC 2=0.4q +32q 2+20000 2122这两个企业生产一同质产品，其市场需求函数为：Q=4000-10p 。试分别基于古诺模型和纳什谈判模型求解两企业的利润。解：由和400010Q p =?12 Q q q =+得124000.1() p q q =?+战争和平国家 1战争-5，-58，-10和平-10，810，10

张维迎《博弈论与信息经济学》部分答案

张维迎《博弈论与信息经济学》部分习题答案如果图片不显示，用打印预览就可以了。 P127 第一题：领悟精神就可以了，而且每本书上都有这些例题，不找了。第二题： UMD 为参与人1的战略，LMR 为参与人2的战略。前面的数字代表参与人1的得益，后面的代表参与人2的得益。参与人2的R 战略严格优于M 战略，剔除参与人2的M 战略，参与人1的U 战略优于M 战略，剔除参与人1的M 战略，参与人1的U 战略优于D 战略，剔除参与人1的D 战略，参与人2的L 战略优于R 战略，剔除参与人2的R 战略。最后均衡为U ，L （4，3）。这样可能看不清，按照步骤一步步画出图就好多了。第三题：恩爱型厌恶型用划线法解出，恩爱的都活着或者都死，厌恶的或者受罪，死了对方另一个人开心的不得了。第四题：没有人会选择比原来少的钱，战略空间为{原来的钱，比原来多的钱}。支付为{0，原来的钱，比原来多的钱}。纳什均衡为选择原来的钱。要画图自己画画。第五题：n 个企业，其中的一个方程：π1＝q 1（a －（q 1＋q 2＋q 3……q n ）－c ），其他的类似就可以了，然后求导数，结果为每个值都相等，q 1= q 2=……q n =(a-c)/(n+1)。或者先求出2个企业的然后3个企业的推一下就好了。

第六题：在静态的情况下，没有一个企业愿意冒险将定价高于自己的单位成本C ，最终P=C ，利润为0。因为每个参与人都能预测到万一自己的定价高于C ，其他人定价为C 那么自己的利益就是负的（考虑到生产的成本无法回收）。就算两个企业之间有交流也是不可信的，最终将趋于P=C 。现实情况下一般寡头不会进入价格竞争，一定会取得一个P 1=P 2=P 均衡。此时利润不为零，双方将不在进行价格竞争。第七题：设企业的成本相同为C ，企业1的价格为P 1，企业2的价格为P 2。 π1=(P 1-C)(a-P 1+P 2)，π2=(P 2-C)(a-P 2+P 1)。一阶最优：a-2P 1+C+P 2=0，a-2P 2+C+P 1=0。解得：P 1=P 2=a+C ，π1=π2=a 2。第八题：不会！到纳什均衡为(A,A,A),(A,B,A),(B,B,B),(A,C,C),(C,C,C)。第十题：无纯战略纳什均衡，设参与人1为P 1～P 4，参与人2为Q 1～Q 4。得到：-Q 2+Q 4=Q 1-Q 3=Q 2-Q 4=-Q 1+Q 3，推出：Q 1=Q 2=Q 3=Q 4=1/4。同理P 1=P 2=P 3=P 4=1/4。以上述的概率在杆子，老虎，鸡，虫子中选择一个。

博弈论知识点总结完整版

博弈论（一）：基本知识 1.1定义:博弈论，又称对策论，是使用严谨的数学模型研究冲突对抗条件下最优决策问题的理论，是研究竞争的逻辑和规律的数学分支。即，博弈论是研究决策主体在给定信息结构下如何决策以最大化自己的效用，以及不同决策主体之间的均衡。 1.2基本要素：参与人、各参与人的策略集、各参与人的收益函数，是博弈最重要的基本要素。 1.3博弈的分类：博弈论根据其所采用的假设不同而分为合作博弈理论和非合作博弈理论。两者的区别在于参与人在博弈过程中是否能够达成一个具有约束力的协议（binding agreement）。倘若不能，则称非合作博弈（Non-cooperative game）。合作博弈强调的是集体主义，团体理性，是效率、公平、公正；而非合作博弈则主要研究人们在利益相互影响的局势中如何选择策略使得自己的收益最大，强调个人理性、个人最优决策，其结果有时有效率，有时则不然。目前经济学家谈到博弈论主要指的是非合作博弈，也就是各方在给定的约束条件下如何追求各自利益的最大化，最后达到力量均衡。博弈的划分可以从参与人行动的次序和参与人对其他参与人的特征、战略空间和支付的知识、信息，是否了解两个角度进行。把两个角度结合就得到了4种博弈： a、完全信息静态博弈，纳什均衡，Nash(1950) b、完全信息动态博弈，子博弈精炼纳什均衡，泽尔腾（1965） c、不完全信息静态博弈，贝叶斯纳什均衡，海萨尼（1967-1968） d、不完全信息动态博弈，精炼贝叶斯纳什均衡，泽尔腾（1975）Kreps, Wilson(1982) Fudenberg, Tirole(1991) 1.4课程主要内容：完全信息静态博弈完全信息动态博弈不完全信息静态博弈机制设计合作博弈 1.5博弈模型的两种表示形式：策略式表述(Strategic form), 扩展式表述（Extensive form） 1.6占优均衡： a、占优策略：在博弈中如果不管其他参与人选择什么策略，一个参与人的某个策略给他带来的支付值始终高于其他策略，或至少不劣于其他策略，则称该策略为该参与人的严格占优策略或占优策略。对于所有的s-i，si*称为参与人 i的严格占优战略，如果满足： ui(si*,s-i)>ui(si',s-i) ?s-i, ?si' ?si* b、占优均衡：一个博弈的某个策略组合中，如果对应的所有策略都是各参与人的占优策略，则称该策略组合为该博弈的一个占优均衡。 1.7重复剔除严劣策略均衡： a、“严劣”和“弱劣”的含义：设s i’和s i’’是参与人i可选择的两个策略，若对其他参与人的任意策略组合s-i, 均成立 u i(s i’, s-i) < u i(s i’’, s-i), 则说策略s i’严劣于策略s i’’。上面式子中，若将“<”改为“≤”，则说策略s i’弱劣于策略s i’’。 b、定义：重复剔除严格策略就是各参与人在其各自策略集中，不断剔除严劣策略…如果最终各参与人仅剩下一个策略，则该策略组合就被称为重复剔除严劣策略均衡。（二）：纳什均衡（Nash Equilibrium） 2.1纳什均衡定义：对于一个策略式表述的博弈G={N,S i, u i,i∈N}，称策略组合s*=(s1, …s i, …, s n)是一个纳什均衡，如果对于每一个i ∈N, s i*是给定其他参与人选择s-i*={s1*, … ,s i-1*, s i+1*, … ,s n*} 情况下参与人i 的最优策略（经济理性策略），即：u i(s i*, s-i*)

博弈论理论经典讲解

博弈论经典案例冰晶淩（杂物区）2010-04-09 22:31:28 阅读258 评论0 字号：大中小订阅引用光光的博弈论经典案例 1994年诺贝尔经济学奖授给了三位博弈论专家：纳什，泽尔腾和海萨尼．而博弈论可以划分为合作博弈和非合作博弈．那三位博弈论专家的贡献主要是在非合作博弈方面，而且现在经济学家谈到博弈论，一般指的是非合作博弈，很少指合作博弈．合作博弈与非合作博弈之间的区别主要在于人们的行为相互作用时，当事人能否达成一个具有约束力的协议，如果有，就是合作博弈；反之，就是非合作博弈．非合作博弈强调的是个人理性，个人最优决策，其结果可能是有效率的，也可能是无效率的．而合作博弈强调的是团体理性．下面是我收集的张维迎教授的几个有关博弈论的经典案例．＜案例一：囚徒困境＞囚徒困境讲的是两个嫌疑犯作案后被警察抓住，分别关在不同的屋子里审讯．警察告诉他们：如果两人都坦白，各判刑8年；如果两个都抵赖，各判1年(或许因证据不足)；如果其中一人坦白一人抵赖，坦白的放出去，不坦白的判刑10年(这有点＇坦白从宽，抗拒从严＇的味道)．这里，每个囚徒都有两种战略：坦白或抵赖．表中每一格的两个数字代表对应战略组合下两个囚徒的支付（效用），其中第一个数字是第一个囚徒的支付，第二个数字为第二个囚徒的支付．战略形式又称标准形式，是博弈的两种表述形式之一，它特别方便于静态博弈分析．在这个例子里，纳什均衡就是（坦白，坦白）：给定B坦白的情况下，Ａ的最优战略是坦白；同样，给定Ａ坦白的情况下，Ｂ的最优战略也是坦白．事实上，这里，（坦白，坦白）不仅是纳什均衡，而且是一个占优战略均衡．就

是说，不论对方如何选择，个人的最优选择是坦白．比如说，如果Ｂ不坦白，Ａ坦白的话被放出来，不坦白的话判１年，所以坦白比不坦白好；如果Ｂ坦白，Ａ坦白的话判８年，不坦白的话判１０年，所以，坦白还是比不坦白好。这样，坦白就是Ａ占优战略；同样，坦白也是Ｂ的占优战略．结果是，每个人都选择坦白，各判刑８年．＜案例二：智猪博弈＞这个例子讲的是，猪圈里有两头猪，一大一小．猪圈的一头有一个猪食槽，另一头安装一个按钮，控制着猪食的供应。按一下按钮会有１０个单位的猪食进槽，但谁按按钮需要付２个单位的成本．若大猪先到，大猪吃到９个单位，小猪只能吃１个单位；若同时到，大猪吃７个单位，小猪吃３个单位；若小猪先到，大猪吃６个单位，小猪吃４个单位。表中第一格表示两猪同时按按钮，因而同时走到猪食槽，大猪吃７个，小猪吃３个，扣除２个单位的成本，支付水平分别为５和１．其他情形可以类推．在这个例子中，什么是纳什均衡？首先我们注意到，无论大猪选择＂按＂还是＂等待＂，小猪的最优选择均是＂等待＂．比如说给定大猪按，小猪也按时得到１个单位，等待则得到４个单位；给定大猪等待，小猪按得到－１单位，等待则得０单位，所以，＂等待＂是小猪的占优战略．给定小猪总是选择＂等待＂，大猪的最优选择只能是＂按＂．所以，纳什均衡就是：大猪按，小猪等待，各得４个单位．多劳者不多得！＜案例三：性别战＞这个例子讲的是一男一女谈恋爱，有些业余活动要安排，或者去看足球比赛，或者去看芭蕾舞演出．男的偏好足球，女的则更喜欢芭蕾，但他们都宁愿在一起，不愿分开。这个博弈中，有两个纳什均衡：（足球，足球）（芭蕾，芭蕾）．就是说，给定一方去足球场，另一方也会去足球场；类似的，给定一方去看芭蕾舞，另一方也会去看芭蕾舞．那么，究竟哪一个纳什均衡会实际发生？我们不知道．只有看实际生活了．＜案例四：斗鸡博弈＞

博弈论经典模型全解析

博弈论经典模型全解析（入门级） 1. 囚徒困境这是博弈论中最最经典的案例了——囚徒困境，非常耐人寻味。“囚徒困境”说的是两个囚犯的故事。这两个囚徒一起做坏事，结果被警察发现抓了起来，分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下，两个囚犯都可以做出自己的选择：或者供出他的同伙(即与警察合作，从而背叛他的同伙)，或者保持沉默(也就是与他的同伙合作，而不是与警察合作)。这两个囚犯都知道，如果他俩都能保持沉默的话，就都会被释放，因为只要他们拒不承认，警方无法给他们定罪。但警方也明白这一点，所以他们就给了这两个囚犯一点儿刺激：如果他们中的一个人背叛，即告发他的同伙，那么他就可以被无罪释放，同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。当然，如果这两个囚犯互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。那么，这两个囚犯该怎么办呢？是选择互相合作还是互相背叛？从表面上看，他们应该互相合作，保持沉默，因为这样他们俩都能得到最好的结果：自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子，他马上意识到，他根本无法相信他的同伙不

会向警方提供对他不利的证据，然后带着一笔丰厚的奖赏出狱而去，让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到，他的同伙也不是傻子，也会这样来设想他。所以A犯的结论是，唯一理性的选择就是背叛同伙，把一切都告诉警方，因为如果他的同伙笨得只会保持沉默，那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了，那么，A犯反正也得服刑，起码他不必在这之上再被罚款。所以其结果就是，这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应：坐牢。企业在信息化过程中需要与咨询企业、软件供应商打交道的。在与这些企业打交道的过程中，我们不可避免地也会遇到类似的两难境地，这个时候需要相互之间有足够的了解与信任，没有起码的信任做基础，切不可贸然合作。在对对方有了足够的信任之后，诚意也是必不可少的，如果没有诚意或者太过贪婪，就可能闹到双方都没有好处的糟糕情况，造成企业之间的双输。 2. 智猪博弈在博弈论（Game Theory）经济学中，“智猪博弈”是一个着名的纳什均衡的例子。假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽，另一头安装着控制猪食供应的按钮，按一下按钮会有10个单位的猪食进槽，但是谁按按钮就会首先付出2个单位的成本，若大猪先到槽边，大小猪吃到食物的收益比是9∶1；同时到槽边，收益比是

博弈论复习题及答案

一、名词解释（每题7分，共28分） 1、逆向选择：逆向选择源于事前的信息不对称，经典例子就是“柠檬市场”——二手车市场，它使得市场资源逐渐流向低质量的产品或要素，最后形成劣货驱逐良货的局面，这种现象称之为“逆向选择”。 2、策略互动：所谓策略互动，就是参与人之间的策略相互影响、相互作用和相互制约。用策略性思维来分析问题，从中找出合理策略，实现目标最优。 3、纳什均衡：对于博弈方而言，互为最优的策略选择就是纳什均衡。 4、信号发送：是指信息优势方不断发出信息的行为，就叫信号发送。 5、博弈论：研究人们如何进行决策，以及这种决策如何达到均衡（合理策略）的问题。每个博弈者在决定采取何种行动时，不但要根据自身的利益和目的行事，还必须考虑到他的决策行为对其他人的可能影响，以及其他人的反应行为的可能后果，通过选择最佳行动计划，来寻求收益或效用的最大化。二、简要回答问题（每题10分，共40分） 1、博弈的基本要素有哪些?基本特点是什么？答：博弈的基本要素有：参与人、策略、行动顺序、信息、收益等五个要素。博弈的基本特点则是需尽可能考虑到博弈对方的决策选择以及对自身的影响，并从中选择出对自身最有利的方案决策，从而达到收益和效用最大化。 2、什么是性别战博弈？请求出其中的纳什均衡？答：性别战博弈是不可调和的博弈，双方只有一方选择满足另外一方的要求才能达成均衡，也就是混合策略纳什均衡；故性别战博弈的纳什均衡会有两种情况，分别是：男生陪女生看电影以及女生陪男生看足球的两种选择。 3、猎鹿博弈反映的基本思想是什么？答：反应的基本思想是需要沟通和互相协调，因为只有合作才能猎到所需猎物。

博弈论第4章答案

R R M 4.1.a 标准式 1↖2 L ’ R ’ 4，1 0，0 3，0 0，1 2，2 2，2 纯战略纳什均衡：( L, L ’ ) ( R, R ’ ) 子博弈精炼纳什均衡：( L, L ’ ) ( R, R ’ ) 精炼贝叶斯纳什均衡：( L, L ’ ) 4.1.b 标准式 1↖2 L ’ M ’ R ’ 1, 3 1, 2 4, 0 4, 0 0, 2 3, 3 2, 4 2, 4 2, 4 纯战略纳什均衡：( R, M ’ ) 子博弈精炼纳什均衡：( R, M ’ ) 精炼贝叶斯均衡: 没有 4.2 标准式 1↖2 L ’ R ’ 2，2 2，2 3，0 0，1 0，1 3，0 六种纯战略组合，每种组合中都至少有一方存在偏离的动机，因此不存在纯战略纳什均衡，因此也就不存在纯战略精炼贝叶斯均衡。求混合战略精炼贝叶斯均衡：设参与者1选择L 、M 、R 的概率分别为1,2,12(1)p p p p ?? 参与者2选择L ’和R ’的概率分别为,(1)q q ? 在给定参与者1的战略下，参与者2选择L ’和R ’的收益无差异，则： 1212 120*1*1*0*p p p p p p +=+?= 给定参与者2的战略，参与者1选择L 、M 、R 的收益无差异，则： 121212 12[3*0*(1)][0*3*(1)]2*(1) 41:**,*112 p q q p q q p p p p p p q +?=+?=??=== =又联立得所以 L L M L L M L R L

4.3答案（见4.5） 4.4 表示方法第一个括号，逗号左边为type 1发送者信号，逗号右边为type 1发送者信号；第二个括号，逗号左边为接收到L 信号的反应，逗号右边为接收到R 信号的反应； P 为信号接收者对type 1发送L 的推断，q 为信号接收者对type 1发送R 的推断（a ） [(,),(,),1/2] [(,),(,),1/2] [(,),((1),),1/2][(,),(,),1,0] R R u u p R R d u p R R d u u p L R u d p q αα><+?=== （b ） [(,),(,),1/2,2/3] [(,),(,),1,0][(,),(,),0,1] L L u u p q L R d u p q R L u d p q =<==== 中文版习题4.5答案（a ） [(,),(,),1/3,1/2]R R u d p q >= （b ） 12121212[(,,),(,),1/3,1/2] [(,,),(,),1/2,0] L L L u u p p q q L L R u d p p q q ==+<==+=

“博弈论”习题及参考答案

《博弈论》习题一、单项选择题 1.博弈论中，局中人从一个博弈中得到的结果常被称为（）。 A. 效用 B. 支付 C. 决策 D. 利润 2.博弈中通常包括下面的内容，除了（）。 A.局中人 B.占优战略均衡 C.策略 D.支付 3.在具有占优战略均衡的囚徒困境博弈中（）。 A.只有一个囚徒会坦白 B.两个囚徒都没有坦白 C.两个囚徒都会坦白 D.任何坦白都被法庭否决了 4.在多次重复的双头博弈中，每一个博弈者努力（）。 A.使行业的总利润达到最大 B.使另一个博弈者的利润最小 C.使其市场份额最大 D.使其利润最大 5.一个博弈中，直接决定局中人支付的因素是（）。 A. 策略组合 B. 策略 C. 信息 D. 行动 6.对博弈中的每一个博弈者而言，无论对手作何选择，其总是拥有惟一最佳行为，此时的博弈具有（）。 A.囚徒困境式的均衡 B.一报还一报的均衡 C.占优策略均衡 D.激发战略均衡 7.如果另一个博弈者在前一期合作，博弈者就在现期合作；但如果另一个博弈者在前一期违约，博弈者在现期也违约的策略称为（）。 A.一报还一报的策略 B.激发策略 C.双头策略 D.主导企业策略 8.在囚徒困境的博弈中，合作策略会导致（）。 A.博弈双方都获胜 B.博弈双方都失败

C.使得先采取行动者获胜 D.使得后采取行动者获胜 9.在什么时候，囚徒困境式博弈均衡最可能实现（）。 A. 当一个垄断竞争行业是由一个主导企业控制时 B.当一个寡头行业面对的是重复博弈时 C.当一个垄断行业被迫重复地与一个寡头行业博弈时 D. 当一个寡头行业进行一次博弈时 10.一个企业采取的行为与另一个企业在前一阶段采取的行为一致，这种策略是一种（）。 A.主导策略 B.激发策略 C.一报还一报策略 D.主导策略 11.关于策略式博弈，正确的说法是（）。 A. 策略式博弈无法刻划动态博弈 B. 策略式博弈无法表明行动顺序 C. 策略式博弈更容易求解 D. 策略式博弈就是一个支付矩阵 12.下列关于策略的叙述哪个是错误的（）： A. 策略是局中人选择的一套行动计划； B. 参与博弈的每一个局中人都有若干个策略； C. 一个局中人在原博弈中的策略和在子博弈中的策略是相同的； D. 策略与行动是两个不同的概念，策略是行动的规则，而不是行动本身。 13. 囚徒困境说明（）： A. 双方都独立依照自己的利益行事，则双方不能得到最好的结果； B. 如果没有某种约束，局中人也可在（抵赖，抵赖）的基础上达到均衡； C. 双方都依照自己的利益行事，结果一方赢，一方输； D、每个局中人在做决策时，不需考虑对手的反应 14. 一个博弈中，直接决定局中人损益的因素是（）： A. 策略组合 B. 策略 C. 信息 D. 行动 15. 动态博弈参与者在关于博弈过程的信息方面是（） A 不对称的 B 对称的 C 不确定的 D 无序的

博弈论基础作业及答案

博弈论基础作业及答案 Company number：【0089WT-8898YT-W8CCB-BUUT-202108】

博弈论中的相关概念

新古典经济学前提：理性选择——减少不确定； ——经济系统效用最大化。理性——新古典经济学与博弈论的纽带博弈论决策前提：理性的战略选择。博弈论决策基础：最优反应，即带来最大收益的战略。但是，在博弈论中最优反应不是理性的唯一表现，也不总是假定人是理性的。新古典经济学决策的背景：理性的个体面临特定的制度环境（产权、货币、高度竞争的市场），在此基础上以获取利益最大化为目的。隐含的基础：只需考虑自身情况和市场条件，而不考虑他人行为。弊端： ——限制了理论的使用范围，现实中竞争并不完全； ——无法解决货币经济以外的决策难题。博弈论的优势： ——不仅考虑自身条件和市场环境，最重要的是还需考虑他人的行为。游戏规则：两个选手，轮流取币；每次至少取一枚硬币；只能从一行中取任意数量的硬币，不许从两行中选取；取走最后一枚硬币的为胜者囚徒困境的启示：囚徒困境仅仅是二人博弈，多人博弈在现实中更多；如果囚犯可以交流，结果显著不同；如果多轮博弈，结果也有不同；导致困境结论的分析过程令人注目，但最后结论并非理性。通常假设参与者将采取最优反应战略而理性行事，最大化利润、力争在游戏中获胜、达到主观收益最大化，或者惩罚最小化，皆属于理性行为。最优反应战略是在其他参与者战略已知或可预测条件下，给某参与者带来最大化收益的战略。博弈分析的关键步骤是找出在别人选择既定的情况下自己的最优反应战略。依据新古典经济学，我们把一个参与者的最优反应（best response）定义为，在其他参与者已经选定战略，或者可以预计到他们将选择何种战略时，能够给该参与者带来的最大收益的战略。标准式——数字矩阵；扩展式——树形图不确定事件（contingency）：相机战略（contingent strategy）：仅在不确定事件发生时才会采取的战略信息集（information set）：节点2包含了决策者掌握的所有信息，因此也称为信息集。扩展式的优势： ——展示了每一阶段掌握的信息； ——展示了参与者掌握信息的不完全所有博弈问题均可用标准式描述，即绘制一个表格，边缘列出参与者的战略，里面列出参与者的收益；