完全信息动态博弈_海盗分金博弈问题分析

合集下载

(完整word版)经典的博弈论分析案例——“海盗分金”问题

经典的博弈论分析案例一一“海盗分金”问题5个海盗抢得100枚金币，他们按抽签的顺序依次提方案：首先由1号提出分配方案，然后5人表决，超过半数同意方案才被通过，否则他将被扔入大海喂鲨鱼，依此类推。

“海盗分金”其实是一个高度简化和抽象的模型，体现了博弈的思想。

在“海盗分金”模型中，任何“分配者”想让自己的方案获得通过的关键是事先考虑清楚“挑战者”的分配方案是什么，并用最小的代价获取最大收益，拉拢“挑战者”分配方案中最不得意的人们。

假设前提假定“每个海盗都是绝顶聪明且很理智”，那么“第一个海盗提出怎样的分配方案才能够使自己的收益最大化？” 推理过程从后向前推，如果1至3号强盗都喂了鲨鱼，只剩4号和5号的话，5号一定投反对票让4号喂鲨鱼，以独吞全部金币。

所以，4号惟有支持3号才能保命。

3号知道这一点，就会提出（100，0，0）的分配方案，对4号、5号一毛不拔而将全部金币归为已有，因为他知道4号一无所获但还是会投赞成票，再加上自己一票，他的方案即可通过。

不过，2号推知3号的方案，就会提出（98，0，1，1）的方案，即放弃3 号，而给予4号和5号各一枚金币。

由于该方案对于4号和5号来说比在3号分配时更为有利，他们将支持他而不希望他出局而由3号来分配。

这样，2号将拿走98枚金币。

同样，2号的方案也会被1号所洞悉，1号并将提出（97, 0，1, 2, 0）或（97, 0，1, 0，2）的方案，即放弃2号，而给3号一枚金币，同时给4号（或5号）2枚金币。

由于1号的这一方案对于3号和4号（或5号）来说，相比2号分配时更优，他们将投1号的赞成票，再加上1号自己的票，1号的方案可获通过，97枚金币可轻松落入囊中。

这无疑是1号能够获取最大收益的方案了！答案是：1号强盗分给3号1枚金币，分给4号或5号强盗2枚，自己独得97枚。

分配方案可写成（97, 0, 1, 2, 0）或（97, 0, 1, 0, 2）。

分析1号看起来最有可能喂鲨鱼，但他牢牢地把握住先发优势，结果不但消除了死亡威胁，还收益最大。

经济博弈论3——完全且完美信息动态博弈

第三章完全且完美信息动态博弈
本章讨论动态博弈(Dynamic Games)，所有博弈方都对博弈过程和得益完全了解的完全且完美信息动态博弈。这类博弈也是现实中常见的基本博弈类型。由于动态博弈中博弈方的选择、行为有先后次序，因此在表示方法、利益关系、分析方法和均衡概念等方面，都与静态博弈有很大区别。本章对动态博弈的概念和分析方法，特别是子博弈完美均衡和逆推归纳法作系统介绍，并介绍各种经典的动态博弈模型。

逆推归纳法事实上就是把多阶段动态博弈化为一系列的单人博弈，通过对一系列单人博弈的分析，确定各博弈方在各自选择阶段的选择，最终对动态博弈结果，包括博弈的路径和各博弈方的得益作出判断，归纳各个博弈方各阶段的选择则可得到各个博弈方在整个动态博弈中的策略。由于逆推归纳法确定的各个博弈方在各阶段的选择，都是建立在后续阶段各个博弈方理性选择基础上的，因此自然排除了包含不可信的威胁或承诺的可能性，因此它得出的结论是比较可靠的，确定的各个博弈方的策略组合是有稳定性的。

最上方的圆圈表示乙的选择信息集或称选择节点（node）。如果乙选择“不借”则博弈结束，他能保住1万元本钱而甲得不到开矿的利润；如乙选择“借”则到达甲的选择信息集，轮到甲进行选择。三个终端黑点处的数组，表示由各博弈方各阶段行为依次构成的，到达这些终端的“路径”所实现的各博弈方得益。乙决策的关键是要判断甲的许诺是否可信。

结论：在一个由都有私心、都更重视自身利益的成员组成的社会中，完善公正的法律制度不但能保障社会的公平，而且还能提高社会经济活动的效率，是实现最有效率的社会分工合作的重要保障。

但是要充分保障社会公平和经济活动的效率，法律制度必须要满足两方面的要求：一是对人们正当权益的保护力度足够大；二是对侵害他人利益者有足够的威慑作用。否则，法律制度的作用就是很有限的甚至完全无效。

完全信息动态博弈

-3 1
-3, 0,
-3 0
1, 0,
0 1
1, 0,
0 0
这里有3个纯战略Nash均衡，分别是 {开发，{不开发，开发}} （均衡结果：A
14
开发，B不开发） {开发，{不开发，不开发}} {不开发，{开发，开发}} 在每一个均衡，给定对方的战略，自己的战略是最优的（效用最大）均衡结果是（开，不开），（开，不开），（不开，开）。注意均衡与均衡结果不同。一般定义：扩展式博弈的战略令 H i 为第 i 个参与人的信息集的集合，
1
选择什么行动，而不是简单的，与环境无关的行动选择。为了说明，我们考虑房地产开发博弈的例子。有两个开发商A和B，互为竞争对手，决定是否进行房地产开发。但他们不是同时行动，且后行动者可以观察到先行动者的行动。假定博弈的行动顺序如下：（1）开发商A先行动，选择开发或不开发；（2）在A决策后，自然选择市场需求大小；（3）开发商B在观察到A 的决策和市场需求（自然的行动）后，决定开发或不开发。如图是房地产开发博弈的博弈树。
4
路径：（path）从初始结到终点结，由结和枝所组成的系列。扩展式（extensive form）是对博弈的一种描述，满足以下条件：（1）由结和枝组成的整体结构，由单个起始结开始到终点结，中间无闭合的圈。即没有以下结构

11
1
（所有前列结全排序）（2）必须说明每个结点属于某个参与人。（3）在自然选择的结上，有自然选择不同枝的概率。（4）有划分每个参与人的结的信息集。（每个信息集是决策结集合的一个子集，满足 (a)每个决策结都是同一个参与人的决
11
1
U 2 L R L R 1 D

博弈论——完全信息动态博弈

博弈论——完全信息动态博弈2 完全信息的动态博弈2.1完全和完美信息的动态博弈动态博弈(dynamic game)：参与⼈在不同的时间选择⾏动。

完全信息动态博弈指的是各博弈⽅先后⾏动，后⾏动者知道先⾏动者的具体⾏动是什么且各博弈⽅对博弈中各种策略组合下所有参与⼈相应的得益都完全了解的博弈静态博弈习惯⽤战略式(Strategic form representation)表述，动态博弈习惯⽤扩展式（Extensive form representation）表述。

战略式表述的三要素：参与⼈集合、每个参与⼈的战略集合、由战略组合决定的每个参与⼈的⽀付。

扩展式表述的要素包括：参与⼈集合、参与⼈的⾏动顺序、参与⼈的⾏动空间、参与⼈的信息集、参与⼈的⽀付函数、外⽣事件（⾃然的选择）的概率分布。

n⼈有限战略博弈的扩展式表述⽤博弈树来表⽰1(1,2) (0,3)①结：包括决策结和终点结。

决策结是参与⼈采取⾏动的时点，终点结是博弈⾏动路径的终点。

第⼀个⾏动选择对应的决策结为“初始结”，⽤空⼼圆表⽰，其它决策结⽤实⼼圆表⽰。

X表⽰结的集合，x X表⽰某个特定的结。

z表⽰终点结，Z表⽰终点结集合。

表⽰结之间的顺序关系，x x′表⽰x在x′之前。

x之前所有结的集合称为x的前列集，x之后所有结的集合称为x的后续集。

以下两种情况不允许：前者违背了传递性和反对称性；后者违背了前列节必须是全排序的。

在以上两个假设之下，每个终点结都完全决定了博弈树的某个路径。

②枝：博弈树上，枝是从⼀个决策结到其直接后续结的连线，每⼀个枝代表参与⼈的⼀个⾏动选择。

在每⼀个枝旁标注该具体⾏动的代号。

⼀般地，每个决策结下有多个枝，给出每次⾏动时参与⼈的⾏动空间，即此时有哪些⾏动可供选择。

③信息集（information sets）：博弈树中某⼀决策者在某⼀⾏动阶段具有相同信息的所有决策结集合称为⼀个信息集。

博弈树上的所有决策结分割成不同的信息集。

每⼀个信息集是决策结集合的⼀个⼦集(信息集是由决策结构成的集合)，该⼦集包括所有满⾜下列条件的决策结：(1)每⼀个决策结都是同⼀个参与⼈的决策结。

海盗分金

海盗分金——博弈论的故事1（一）海盗分金5名海盗分100枚金币。

规则是大家抽签分出1—5号，并按顺序提方案。

1号首先提方案，5人表决，当超半数同意时有效；否则1号将被抛入大海。

然后，2号提方案，4人表决，评判方式同上。

以此类推。

假定每个人都很聪明，1号提出什么方案，能使自己收益最大？答案是：（97、0、1、0、2 ）或（97、0、1、2、0）。

推理：假定1—3号都抛入大海，那末4号也活不了，所以，4号必须保住3号。

据此，3号可提方案（100、0、0）。

2号推知3号方案，可提出（98、0、1、1）方案，来拉拢4号和5号。

1号推知2号方案，可推出上述方案，拉拢住3号，以及4号或5号中的1人。

（二）博弈论与博弈类型博弈（Game），本是游戏、竞赛的意思。

所要解决的核心问题是：参与博弈的其他人员会怎么做？我应采取怎样的对策来取得最佳效果？博弈的例子到处可见：讨价还价、划拳、小孩猜拳、下棋、打牌，以及“三十六计”、“田忌赛马”等。

博弈论作为一种理论，最先是由美国经济学家冯·诺伊曼在1937年提出来的，他与经济学家奥斯卡·摩根斯坦于1944年合著的《博弈论与经济行为》公认为博弈论诞生的标志。

今天，博弈论已为数学的一个较为完善的分支，并在许多领域被运用。

在经济学领域的影响被称为“现代经济学的一次大的革命”。

博弈类型：1.静态博弈与动态博弈。

前者指参与者同时行动、同时出牌或亮招，如招标、考试等；后者指参与者的行动有先后次序，如下棋、战争、商业竞争等。

2.完全信息博弈与不完全信息博弈。

前者指参与者互相都“知己知彼”，否则就是后者。

3.零和博弈与非零和博弈。

前者指“你赢的就是我输的”，如打麻将、下棋等；后者指大家的得失总和不为零，如势均力敌的战争会使两败俱伤，而商业合作会使“双赢”。

4.合作博弈与非合作博弈。

在非零和博弈中，分为这两种。

前者指博弈双方可都获利，如价格联盟；后者指博弈结果会对双方都不利。

博弈论——完全信息动态博弈

2 完全信息的动态博弈2.1完全和完美信息的动态博弈动态博弈(dynamic game)：参与人在不同的时间选择行动。

完全信息动态博弈指的是各博弈方先后行动，后行动者知道先行动者的具体行动是什么且各博弈方对博弈中各种策略组合下所有参与人相应的得益都完全了解的博弈静态博弈习惯用战略式(Strategic form representation)表述，动态博弈习惯用扩展式（Extensive form representation）表述。

战略式表述的三要素：参与人集合、每个参与人的战略集合、由战略组合决定的每个参与人的支付。

扩展式表述的要素包括：参与人集合、参与人的行动顺序、参与人的行动空间、参与人的信息集、参与人的支付函数、外生事件（自然的选择）的概率分布。

n人有限战略博弈的扩展式表述用博弈树来表示1(1,2) (0,3)①结：包括决策结和终点结。

决策结是参与人采取行动的时点，终点结是博弈行动路径的终点。

第一个行动选择对应的决策结为“初始结”，用空心圆表示，其它决策结用实心圆表示。

X表示结的集合，x X表示某个特定的结。

z表示终点结，Z表示终点结集合。

表示结之间的顺序关系，x x´表示x在x´之前。

x之前所有结的集合称为x的前列集，x之后所有结的集合称为x的后续集。

以下两种情况不允许：前者违背了传递性和反对称性；后者违背了前列节必须是全排序的。

在以上两个假设之下，每个终点结都完全决定了博弈树的某个路径。

②枝：博弈树上，枝是从一个决策结到其直接后续结的连线，每一个枝代表参与人的一个行动选择。

在每一个枝旁标注该具体行动的代号。

一般地，每个决策结下有多个枝，给出每次行动时参与人的行动空间，即此时有哪些行动可供选择。

③信息集（information sets）：博弈树中某一决策者在某一行动阶段具有相同信息的所有决策结集合称为一个信息集。

博弈树上的所有决策结分割成不同的信息集。

每一个信息集是决策结集合的一个子集(信息集是由决策结构成的集合)，该子集包括所有满足下列条件的决策结：(1)每一个决策结都是同一个参与人的决策结。

博弈论-完全且完美信息动态博弈

完全信息动态博弈
动态博弈：参与人的行动有先后顺序，且后行动者能够观察到先行动者的行动。先行动者的选择影响后行动者的选择空间，后行动者可以观察到先行动者做了什么选择，因此，为了做出最优的行动选择，每个参与人都必须这样思考问题：如果我如此选择，对方将如何应对？给定他的应对，什么是我的最优选择？
房地产开发博弈
例2：两个房地产商A、B进行房地产开发博弈。市场需求大、小的概率各占50%。投入：1亿。假定市场上有两栋楼出售：需求大时，每栋售价1.4亿，需求小时，售价7千万；如果市场上只有一栋楼需求大时，可卖1.8亿需求小时，可卖1.1亿行动顺序：(1)开发商A首先行动，选择开发或不开发； (2)在A决策后，自然选择市场需求的大小； (3)开发商B在观测到A的决策和市场需求后，决定是否开发
B
不开发开发
B
不开发开发
B
开发
不开发
(4,4 )
(8,0 )
(-3,-3)
(1,0 )
(0,8 )
(0,0 )
(0,1 )
(0,0 )
房地产开发博弈
三、策略式转化为扩展式
案例-囚徒困境
囚徒 B 坦白抵赖
囚徒A 坦白抵赖
-8，-8 0，-10 -10，0 -1，-1
博弈论（Game Theory)
ห้องสมุดไป่ตู้
第三章
完全且完美信息动态博弈

扩展型博弈表述

扩展型博弈的策略及纳什均衡
子博弈精炼纳什均衡
“海盗分金”模型

话说5个海盗抢得100枚金币，他们按抽签的顺序依次提方案：首先由1 号提出分配方案，然后5人表决，半数同意方案才被通过，否则他将被扔入大海喂鲨鱼，依此类推。求第一个海盗的最优策略。

第3章_完全信息动态博弈

（1）博弈参与者：囚徒A和B；（2）行动顺序：如果囚徒A先行动，那么囚徒B会根据观察到的
A的行动来决定自己的策略；（3）策略空间：囚徒A和B的策略空间是相同的，所采取的策略
有两种情况：坦白和抵赖。（4）信息集：完全信息意味着双方对博弈的整个过程都能正确
了解，对博弈另一方的策略以及双方采取不同策略时各个参与者的收益等信息完全掌握。（5）支付函数：如果囚徒A先行动，当A选择“坦白”时，若囚徒B选择“坦白”，则A判刑8年，B也判刑8年；若囚徒B选择 “抵赖”，则A无罪释放，B被判刑10年；等等。
（2）博弈树与博弈顺序
博弈树各节点之间存在顺序关系，博弈树由上至下的节点顺序表示各博弈参与者进行决策的顺序。
下图中博弈参与者进行决策的顺序是：首先是参与者1，然后是参与
者2，最后是参与者3.
参与者 1
S1
S2
（a1, b1, c1） T1
参与者 2 T2
（a2, b2, c2） U1
员工1先行动，但员工2观察不到员工1所采取的策略。在博弈树中如何表示？
1
H
O
2 H
3
H
O
O
3
H
O
H
3
H
O
2 O
3
H
O
(6, 6, 6)
(3, 3, 8) (3, 8, 3) (0, 2, 2) (8, 3, 3) (2, 0, 2) (2, 2, 0)
员工 2 只有一个信息集的博弈树
被虚线连接起来的两个博弈节点构成一个博弈信息集。
如果三人都罢工，那么公司无法运转，老板会被迫给每个人涨工资，三人均得到收益6；
如果两人罢工，一个人不罢工，那么老板会认为唯一不罢工的员工是企业的忠实员工，因此不罢工的员工得到收益8，两名罢工的员工各得收益3；

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

海盗分金博弈问题
向前递推一次，当轮到海盗4 提出方案时，前3个海盗肯定已经被丢到大海喂鱼了，这个时候只有海盗4和海盗5留在船上。无论海盗5赞成与否，集体投票赞成的票数都会达到半数，海盗4提出的分配方案最终将被实施，因此海盗4会提出分配方案
* 2 3 4 5 s4 ( x1 , x , x , x , x ,0). 4 4 4 4 4 ) (0,0,0,100
s ( x , x , x , x , x ) ( 0,0,99,0,1 ).
* 3 1 3 2 3 3 3 4 3 5 3
海盗分金博弈问题
继续向前递推，轮到海盗2做决定的时候，海盗1已经被丢进大海，留在船上的还有海盗2、海盗3、海盗4和海盗5。海盗2知道如果自己的方 * s 案被反对，海盗3会提出方案 3 , 这时海盗4什么 4 ( x 也得不到 3 0 ).于是只有他提出的方案满足 4 4 x x • 2 3 , 海盗4就赞成该方案，这样一来，集体投票的赞成票数将会就会达到半数，因此海盗 2 就会选择分配方案
完全信息动态博弈 -----海盗分金博弈问题
组员：
海盗分金博弈问题
引入问题：
有5个亡命之徒在海上抢到100枚金币,他们决定通过一种民主的方式来分配这笔财富。投票规则如下：5个海盗通过抽签决定每个人提出分配方案的顺序，由排序最靠前的海盗提出一个分配方案，如果有半数或半数以上的人赞成，那么就按照这个海盗提出的分配方案分配金币，否则提出这个分配方案的海盗就要被扔到海里；再由下一个海盗提出分配方案，如果有半数或半数以上的人赞成，那么就按照他提出的分配方案分配金币，否则他也要被扔到海里；以此类推。
海盗分金博弈问题
每个海盗都非常聪明并且知道其他人的凶残。对于海盗而言，他们希望自己获得尽可能多的金币，但是丢到海里就意味着喂鱼，因此他们都不愿意丢掉性命。意思是每一个海盗都想在保全自己生命安全的前提下获取自己的最大利益，试问在这种规则下最后的分配结果是什么？
盗所处的位置最不利，因为其他的海盗可能通过将其扔进海里减少分配金币的人数，从而使自己获得更多的金币。但是，如果将“海盗分金”问题当成一个完全信息动态博弈来分析，所得的结论将会与我们的直觉完全不同。
海盗分金博弈问题
利用“海盗分金”的例子可以解释很多社会现象。例如，为什么企业中的一把手，在搞内部人控制时，经常是抛开二号人物，而会计和出纳们打得火热？这正是因为公司里的小人物好收买，而二号人物却总是野心勃勃地想取而代之。
s2
s1
* 1
* 2
* s3 (0,0,99,0,1)
s (0,99,0,1,0)
s (99,0,1,0,1)
海盗分金博弈问题
值得注意的是 , 本来海盗 1 看似最不容易被丢进海里喂鱼，但是他牢牢把握住了先发制人的优势，结果不但没有丢掉性命，还获得了最多的金币；而海盗5貌似最安全，没有死亡威胁，甚至还能通过向海盗1 发出死亡威胁，坐收渔人之利，但却由于其威胁“不可置信”（ not credible ），而不得不看人脸色行事。
海盗分金博弈问题
显然，“海盗分金”问题可以看成有限的完全信息动态博弈，所以可以采用逆向归纳法进行求解。不妨将i(i=1,2,...,5)个提出分配方案的海盗成为海盗 i，
1 2 3 4 5 s (x 用 i i 提出的分配方案，其中 i ,xi ,xi ,xi ,x表示海盗 i )
xi （j=1,2,...,5表示海盗i愿意付给海盗j的金币数。
s ( x , x , x , x , x ) (0,99,0,1,0)
* 2 1 2 2 2 3 2 4 2 5 2
海盗分金博弈问题
最后，考察分赃之初海盗1是如何决定的。当轮到海盗1提出分配方案的时候，所有的海盗都在船上。他知道一旦他的方案被反对，海盗2将提出方案 s* 2 , 那么海盗3和海 3 5 ( x 0 , x 盗5将什么也得不到 2 2 0 ), 于是只要他提出方案满足 x13 x23 , x15 x25 , 海盗3和海盗5就会赞成该方案，那么集体投票的赞成票数就会超过半数，因此海盗1 就会选择分配方案
s ( x , x , x , x , x , ) ( 98,0,1,0,1 ).
* 1 1 1 2 1 3 1 4 1 5 1
海盗分金博弈问题
综合以上分析，可以看出：海盗1提出的分配方案
s ( x , x , x , x , x , ) (98,0,1,0,1).
* 1 1 1 2 1 3 1 4 1 5 1
j x 5 ). 下图是海盗分金问显然， i 100( i 1,2 ,..., j 1 s
j
题的示意图。
海盗分金博弈问题
海盗分金博弈问题
根据逆向归纳法，首先考察到海盗5提出分配方案时的情况。
轮到海盗5提出方案时，前4个海盗肯定已经被丢到大海喂鱼了，这个时候只有他自己留在船上，无论他提出怎样的分配方案，最后都会被实施。为了尽可能多获得金币，海盗5会选择 * 1 2 3 4 5 s5 ( x5 , x5 , x5 , x5 , x5 ) ( 0,0,0,0,100).
该方案即被多数人接受，博弈结束。在“海盗分金”中，任何“ 分配者”想让自己的方案获得通过的关键是：事先考虑清楚“挑战者”的分配方案是什么，并用最小的代价获取最大的收益，拉拢“挑战者”分配方案中最不得意的人。
博弈树
s4
s3
s5
s (0,0,0,0,100)
* 5 * s4 (0,0,0,100,0)
海盗分金博弈问题
顺次向前推一步，如果轮到海盗3做决定，他会提出怎样的分配方案？当轮到海盗3提出方案时，前2个海盗肯定已经被丢到大海喂鱼了，这个时候只有海盗3、海盗4和海盗5留在船上。海盗3知道如果他的方案被否决，海盗4 * 将会提出分配方案 s 4 ,那么海盗5将什么也得 5 0. 现在只要他给海盗5一个单位的不到 x4 金币 x35 1 x45 0, 海盗5将赞成这个方案。这样一来，集体投票的赞成票数将会就会大于半数，因此海盗3就会选择分配方案