博弈论完全信息静态博弈

合集下载

博弈论“囚徒困境”的四种形式

博弈论中的“囚徒困境”摘要：“囚徒困境”模型是博弈论中的经典范例，它是1950年Tucker提出的，其完全信息下的静态博弈为广大博弈论的工作者和初学者所掌握，成为解释生活现象的有力工具。

其实“囚徒困境”模型随着博弈论的深入发展，具有各种不同的形式，通常分为：完全信息的静态博弈，完全信息的动态博弈，不完全信息的静态博弈及不完全信息的动态博弈四种形式。

本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。

关键词：博弈论囚徒困境经济一、完全信息静态“囚徒困境”博弈完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。

它的基本模型是：警察抓住了两个合伙犯罪的罪犯，由于缺乏足够的证据指证他们的罪行，所以希望这两人中至少有一人供认犯罪，就能确认罪名成立。

为此警察将这两个罪犯分别关押以防止他们串供，并告诉他们警方的政策是“坦白从宽，抗拒从严”：如果两人中只有一人坦白认罪，则坦白者立即释放，而另一人则将重判5年徒刑；如果两个同时坦白认罪，则他们将各判3年监禁。

当然罪犯知道如果他们两人都拒不认罪，则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。

用矩阵表示两个罪犯的得益如下(得益向量的第一个数字是囚徒1的得益，第二个数字是囚徒2的得益) ：囚徒2囚徒1（表1）假定两个罪犯熟悉彼此，这便是一个同时行动的完全信息静态博弈。

容易看出，由于对于每个囚徒而言，无论对方选择什么策略，坦白都是自己的最优策略，所以(坦白，坦白) 是博弈的Nash均衡。

二、完全信息动态“囚徒困境”博弈——重复“囚徒困境”博弈研究重复博弈的意义在于基本博弈会重复进行，比如犯罪团伙会被警方多次审讯，日常生活中买卖会重复进行，国际间的战争此伏彼起。

而且人们也发现基本博弈的重复进行并非基本博弈的简单累加，比如商业中的回头客问题。

下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。

首先观察“囚徒困境”的有限博弈，以T记基本博弈的重复次数。

完全信息静态博弈

博弈论的发展前景
无论是从社会经济发展的客观要求，还是从经济学理论发展本身的规律来看，博弈论都有很大的发展前途。 1）博弈论本身具有优美深刻的本质魅力，新的分析工具和应用领域的不断发现，以及博弈论价值得到越来越充分的认识，不断吸引大量学者加入学习、研究和应用博弈论的队伍。这是博弈论继续向前发展的根本基础和保证。 2）在博弈规则的来源、博弈方的行为模式和理性等基础理论方面，博弈论还存在不少没有很好解决的问题，有待进一步研究和解决。这正是博弈论未来发展的动力。 3）当前合作博弈理论发展相对落后，这个领域有很大的发展潜力，很可能孕育出引发经济学新革命的重大成果。非合作博弈和合作博弈理论的重新组合也可能给博弈论的发展提出新的方向和课题。
1）决策者考虑短期利益、个人或者小集团利益更多，决策者确实缺乏理智和理性； 2）局部地区或特定时期战争的利益比上述博弈中所假设的要大； 3）其他国家选择战争时还击比不还击损失小，先发制人则更能使自己相对有利；
以上因素都是导致发生战争机会增大的重要原因。
2）风险上策均衡法
风险上策均衡：如果所有博弈方在预计其他博弈方采用两种纳什均衡的策略的概率相同时，都偏爱其中某一个纳什均衡，则该纳什均衡就是一个“风险上策均衡”。
博弈论在我国经济中的应用
企业经营者的启示：
1）在我国经济体制改革和国有企业管理体制改革中，委托人—代理人理论和激励机制设计原理有很大的应用价值。如，对“监督困难的委托人—代理人理论”的研究，找到可以调整各方面的利益关系和调动职工和经营者的积极性和责任心的依据和方法。 2）博弈论领域中“囚徒困境”，“激励悖论”等众多模型和命题为企业经营者揭示了众多经济、经营活动中的内在规律，企业决策者利用这些工具可以大大提高在价格和产量决策、经济合作和经贸谈判，参与投标拍卖，处理劳资关系等问题的决策效率。

完全信息静态博弈及其纳什均衡解

第三章完全信息静态博弈及其纳什均衡解1.完全信息静态博弈定义 3.1.完全信息静态博弈。

完全信息静态是指，博弈中的参与人同时采取行动，或者尽管参与人行动的采取有先后顺序，但后行动的人在行动时不知道先采取行动的人采取的是什么行动；同时博弈参与人的策略空间及策略组合下的支付是博弈中所有参与人的“公共知识”。

两个特点：（1）静态；（2）完全信息。

完全信息静态博弈例子。

例1：锤子-剪刀-布例2：交通行驶非“完全信息静态博弈”例子：英式拍卖——动态博弈；第一密封价格及第二密封价格拍卖——不完全信息博弈。

2.纳什均衡及其判定定义3.2 纳什均衡。

在一个n人博弈的标准式G={S1,S2，…,S n; u1,u2,…,u n}中，一个策略组合{s1*,s2*,…，s n*}，若满足u i(s1*,…,s i*,…s n*)≥u i(s1*,…s i,…，s n*)（i=1…n），则称这个策略组合为{s1*,s2*,…，s n*}为该博弈G的一个纳什均衡。

某策略组合是纳什均衡指的是，在该策略组合上任何一个参与人的收益在其他人策略不改变的情况下都至少是弱优的。

特点：（1）每个人没有单独改变策略的动机；（2）局部最优。

纳什均衡判定方法：用定义来判定：某点是均衡看它是否符合纳什均衡的定义。

求解纳什均衡的方法：（2）用定义来求解（3）对于策略空间为连续的博弈，用求极值的方法来求得。

3.纳什均衡存在定理：（纳什）定理3.1.在一个n人博弈的标准式G={S1,S2，…,S n; u1,u2,…,u n}中，如果n是有限的，且对每个i, S i是有限的，则博弈至少存在一个纳什均衡。

这里的均衡可能包含混合策略均衡。

证明：略例子3：囚徒困境的均衡例1：“锤子-剪刀-布”的均衡？4.混合策略与混合策略的均衡纯策略与混合策略概念。

定义.3.3.一个策略是纯策略指的是参与人策略空间中的某个确定策略；而一个混合策略是参与人策略空间上的一个概率分布，一般地，某个人i的策略空间为{s i1,s i2,…，s ik},则参与人i在策略空间上的一个概率分布p i=(p i1,p i2,…，p ik)构成他的一个混合策略，其中p i1+p i2+…+p ik=1。

2 完全信息静态博弈--博弈论

Then 1 should choose “a”.
– Player 1’s best response to “B” is “a”.
Strategy a b c
A
12,11 11,10 10,15
Player 2
B
11,12 10,11 10,13
C
14,13 12,12 13,14
Player 1
2.1.3 上策均衡
上策
– 在某个博弈中，不管其他博弈方选择什么策略，一博弈方的某个策略给他带来的得益始终高于其它策略，至少不低于其它策略。
上策均衡
– 一个博弈的某个组和策略中的所有策略都是各个博弈方各自的上策。这样的策略组合为该博弈的一个“上策均衡”。
智猪博弈（boxed pig game）
Exercise: 田忌赛马
每次双方各出三匹马，一对一比赛三场，每一场的输方要赔一千斤铜给赢方。
齐王的上、中、下三匹马分别比田忌的上、中、下马略胜一筹。但田忌的上马比齐王的中马和下马好，中马比齐王的下马好。
扩展成一个博弈问题，写出支付矩阵。
田忌
上中下上下中中上下中下上下上中下中上上中下 3，-3 1，-1 1，-1 1，-1 -1，1 1，-1
Scenario Analysis
Similarly, if 1 thinks 2 will choose C…
– Player 1’s best response to “C” is “a”.
Player 2
Player 1
Strategy a b c
A
12,11 11,10 10,15
B
11,12 10,11 10,13

1博弈论概述2完全信息静态博弈3完全信息动态博弈4

②从局中人行动的先后顺序可划分为静态博弈（Static game）和动态博弈（dynamic game）。静态博弈是指在博弈中，局中人同时选择行动或虽非同时行动但后行动者并不知道先行动者采取了什么具体行动。动态博弈是指局中人的行动有先后顺序，且后行动者能够观察到先行动者所选择的行动。
③从局中人是否具有有关其他参与人（对手）的特征、策略空间及支付函数方面的知识的角度，可划分为完全信息博弈
合作博弈和非合作博弈的区别在于人们的行动为相互作用时，当事人能否达成一个具有约束力（binding agreement）的协议。若有，就是合作博弈；否则就是非合作博弈。例如，两个寡头企业，如果他们之间达成一个协议，联合最大化垄断利润，且各自按该协议生产，即是合作博弈。其面临的问题是如何分享合作带来的剩余。但若两个企业间的协议不具有约束力，即没有哪一方能强制另一方遵守该协议，每个企业都只选择自己的最优产量（或价格），则是非合作博弈。另外，合作博弈强调的是团体理性、效率、公正和公平。非合作博弈强调的是个人理性、个人最优决策，其结果可能是有效率的，也可能是无效率的。
一、占优策略均衡
通常情况下，每个局中人的支付是博弈中所有参与人策略的函数，故每个局中人的最优策略选择依赖于所有其他参与人的策略选择。但在一些特殊博弈中，一个参与人的最优策略选择可能并不依赖于其他参与人的策略选择，即无论其他参与人选择什么策略，他的最优策略是唯一的，这种最优策略被称为“占优策略” （dominant strategy）。例：“囚徒困境” 囚徒困境是博弈论中的经典案例。该故事讲的是，两个嫌疑犯作案后被警察抓住，分别被关在不同的房间里进行审讯。警察知道两人有罪，但缺乏有力的证据，除非两人之中有一个坦白。警察告诉每个人，他们的可选择的策略与支付如下表：

经济博弈论 02 完全信息静态博弈(Park)

ui(S1*, ... Si-1*, Si*, Si+1*, ... Sn*) ≥ui(S1, ... Si-1*, Sij, Si+1*,… Sn*)
都成立，则称 {S1*, ...Sn*}为G的一个纳什均衡
YBU
Economics department
Cont.
二、纳什均衡的一致预测性质一致预测：如果所有博弈方都预测一个特定博弈结果会
妻（囚徒 2 ）
坦白
不坦白
-5， -5
0， -8
-8， 0
-1， -1
Payoff
YBU
Economics department
2.1 Cont.
二、下策均衡
严格下策（dominate str.）：不管其它博弈方的策略
如何变化，给一个博弈方带来的收益总是比另一种
策略给他带来的收益小的策略,
ui (Si’ , S-i) ≥,> ui (Si*, S-i ) ,分别称为弱下策、严格下
Cont.
二、混合策略、混合策略博弈和混合策略纳什均衡混合策略：在博弈 G={S1, ...Sn; u1, ...un} 中，博弈方 i 的策略空间 {Si1, ...Sik} ，则博弈方 i 以概率分布{pi1, ...pik}随机在其k个可选策略中选择的“策略”，称为一个“混合策略”，其中0< pij <1 , 对 1< j <k,都成立， pi1+ ...pik=1 混合策略扩展博弈：博弈方在混合策略的策略空间（概率分布空间）的选择看作一个博弈，就是原博弈的“混合策略扩展博弈）。
Strategy：[0 ,p1max], [0 ,p2max] Payoff: q1(p1, p2)=28- p1-0.5p2 , q2(p1, p2)=28- p2-0.5p1 , c1=c2=2; ➢ u1=(p1-2)(28- p1-0.5p2); u2=(p2-2)(28- p2-0.5p1); Howe to find the equilibrium?

博弈论完全信息静态博弈

max u1 max(6q1 q1q2 q12 )
q1
1 q1 R1 (q2 ) (6 q2 ) 2
同样有： 2 max u1 max(6q2 q1q2 q2 )
q2
1 q2 R2 (q1 ) (6 q1 ) 2
2.3.2 反应函数
古诺模型的反应函数
个博弈方的各一个策略组成的某个策略组合 (s1*,…,sn*)中，任
一博弈方 i的策略si*，都是对其余博弈方策略的组合 (s1*,…, si1 *,
si+1* ,…,sn*) 的最佳对策，也即
* * ui ( si* , si*1 , si* , si*1 ,...sn ) ui ( si* , si*1 , sij , si*1 ,...sn )
q2
(0,6)
R1 (q2 )
q1 R1 (q2 ) 1 (6 q2 ) 2 q2 R2 (q1 ) (6 q1 )
1 2
(0,3)
R2 (q1 )
(3,0) (6,0)
q1
古诺模型的反应函数图示

对一个一般的博弈，只要得益是策略的多元连续函数，我们都可以求每个博弈方针对其他博弈方策略的最佳反应构成的函数，也即反应函数，而解出的各个博弈方反应函数的交点就是纳什均衡。这种利用反应函数求博弈的纳什均衡的方法称为“反应函数法”。
本部分主要内容
2.1 基本分析思路和方法
2.2 纳什均衡
2.3 无限策略博弈分析和反应函数 2.4 混合策略和混合策略纳什均衡
2.5 纳什均衡的存在性
2.6 纳什均衡的选择和分析方法扩展
2.1 基本分析思路和方法
2.1.1 上策均衡 2.1.2 严格下策反复消去法 2.1.3 划线法 2.1.4 箭头法

完全信息静态博弈论模型

完全信息静态博弈论模型引言：博弈论是研究决策制定者在不同利益冲突场景下的行为和策略选择的数学模型。

在博弈论中，静态博弈是指参与者在同一时间点做出决策的情况。

完全信息表示每个参与者对于其他参与者的行为和策略选择都有完全的了解。

本文将介绍完全信息静态博弈论模型的基本概念、解决方法以及应用领域。

一、基本概念1.1 参与者完全信息静态博弈中，有两个或多个参与者，每个参与者可以是个体、团体或国家等。

参与者通过制定决策来追求自身的利益。

1.2 策略每个参与者在博弈中可以选择的行动方案称为策略。

策略可以是纯策略，即只选择一个确定的行动；也可以是混合策略，即以一定概率选择不同的行动。

1.3 支付函数支付函数是衡量参与者在不同策略组合下所获得效用或利益的函数。

支付函数可以表示为参与者的收益、成本或效用。

1.4 纳什均衡纳什均衡是指在博弈中，每个参与者选择的策略组合使得没有参与者有动机改变自己的策略。

换言之，每个参与者都在给定其他参与者的策略下做出最优的决策。

二、解决方法2.1 支付矩阵为了描述参与者之间的策略选择和支付函数之间的关系，可以使用支付矩阵。

支付矩阵是一个二维矩阵，行表示一个参与者的策略选择，列表示其他参与者的策略选择，每个元素表示对应策略组合下的支付函数。

2.2 最优响应最优响应是指在其他参与者的策略下，参与者能够选择的最优策略。

通过计算每个参与者的最优响应，可以找到纳什均衡。

2.3 前瞻性在完全信息静态博弈中，参与者可以通过推断其他参与者的策略和支付函数来做出决策。

前瞻性是指参与者能够预测其他参与者的行为并做出相应的反应。

三、应用领域完全信息静态博弈论模型广泛应用于经济学、政治学、生物学等领域。

3.1 经济学博弈论在经济学中有广泛应用，如市场竞争、定价策略、拍卖等。

完全信息静态博弈模型可以帮助分析参与者的决策行为，预测市场的走势和结果。

3.2 政治学在政治学中，博弈论可以用于分析选举、政策制定和国际关系等问题。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

＊Two suspects are arrested and charged with a crime. The police lack sufficient evidence to convict the suspects, unless at least one confesses.The police hold the suspects in separate cells and explain the consequences
＊理解完全信息静态博弈时要注意事项
１ Although we stated that in a normalform game the players choose their strategies simultaneously , this does not imply that the parties necessarily act simultaneously :it suffices that each choose his or her action without knowledge of the others’ choices, as would be the case “the prisoners’dilemma” if the prisoners reached decisions at arbitrary times (在任意时间)while in their separate cells.
that will follow from the actions they could take. If neither confesses then both will be convicted of a minor offense and sentenced to one year in jail. If both confess then both will be sentenced to jail five years. Finally, if one confesses but the other does not, then the confessor will be released immediately but the other will be sentenced to eight years in jail—five for the crime and a further three for obstructing justice(干扰司法)。
Definition: The normal-form representation of an-n-player game specifies the players’ strategy spaces S1 , … , Sn and their payoff functions u1 ,…, un. We denote this game by G={S1, … ,Sn;u1, … , un}. 教材Ｐ22
Chapter 1 完全信息静态博弈 Static Games of Complete Information In this chapter we consider games of the following simple form: first, the players simultaneously choose actions; then, the players receive payoffs that depend on the combination of actions just chosen. Within the class of such static (or simultaneous-move) games,we restrict attention to games of complete information. That
招认
囚徒２招认沉默 –5, -5 0, -8
-8, 0 -1 , -1
囚徒１
沉默
பைடு நூலகம்
囚徒的困境
We now turn to the general case. The normal-form representation of a game specifies: (1)the players in the game;(2)the strategies available to each player;(3)the payoff received by each player for each combination of strategies that could be chosen by the players.
is each player’s payoff function (the function that determines the players payoff from the combination of actions chosen by the players) is common knowledge among all the players. 教材P21
一、Normal-Form Representation of Games and Nash Equilibrium
(一)Normal-Form Representation of Games
In the normal-form representation of a game ,each player simultaneously chooses a strategy, and the combination of strategies chosen by the players determines a payoff for each player. We illustrate the normal-form representation with a classical example—The prisoners’ Dilemma.

博弈论完全信息静态博弈

博弈论“囚徒困境”的四种形式

完全信息静态博弈

完全信息静态博弈及其纳什均衡解

2 完全信息静态博弈--博弈论

1博弈论概述2完全信息静态博弈3完全信息动态博弈4

经济博弈论 02 完全信息静态博弈(Park)

博弈论 完全信息静态博弈

完全信息静态博弈论模型

博弈论完全信息静态博弈