第三讲_混合策略纳什均衡

合集下载

3-混合策略的纳什均衡

博弈论教学/混合策略的纳什均衡出自MyKnowledgeBase< 博弈论教学Bread crumbs: Main Page > 博弈论教学/混合策略的纳什均衡目录■1 复习■2 混合策略(Mixed strategy)■2.1 举例/Example■2.2 概念■2.3 纯策略和混合策略■2.4 混合策略的争议■3 混合策略的纳什均衡■3.1 基本概念■3.2 混合策略纳什均衡的存在性/纳什定理■3.3 学术争议与批评■4 混合策略纳什均衡举例■4.1 社会福利博弈Social Welfare Game■4.1.1 博弈分析(方法1:收益无差异)■4.1.2 博弈分析（方法2：图形分析法）■4.1.3 博弈分析(方法3：导数(Derivative)极值法)■4.2 普通例子■4.3 审计博弈(Tax Game)■4.4 激励的悖论[5]■4.5 求解纳什均衡的一般方法■5 多重纳什均衡■5.1 多重纳什均衡举例■5.1.1 夫妻之争■5.1.2 制式问题■5.1.3 市场机会博弈■5.2 多重纳什均衡分析■5.2.1 帕累托上策均衡（Pareto Dominated Equilibrium）■5.2.1.1 帕累托最优Pareto optimality■5.2.1.2 帕累托上策均衡(Pareto Dominated Equilibrium)■5.2.1.3 举例分析■5.2.2 风险上策均衡(Risk-dominant Equilibrium)■5.2.3 聚点均衡(Focal Points Equilibrium)■5.2.4 相关均衡■5.2.5 抗共谋均衡(coalition-proof Nash equilibrium)■6 纳什均衡的意义■7 作业■8 参考文献pure strategy）相对应。

混合策略：在博弈中，博弈方的策略空间为，则博弈方i以概率分布随机在其选策略中选择的“策略”，称为一个“混合策略”，其中，对都成立，且。

3 混合纳什均衡

13
混合Nash均衡的解释（2）
纳什均衡要求每个参与人的混合战略是给定对方的混合战略下的最优选择。因此在社会福利博弈中，* 0 . 2 ， *=0.5是唯一的混合战略纳什均衡。从反面来说，如果政府认为流浪汉选择寻找工作的概率严格小于0.2，那么政府的唯一最优选择是纯战略：不救济；
如果政府以1的概率选择不救济，流浪汉的最优选择是寻找工作，这又将导致政府选择救济的战略，流浪汉则选择游荡。如此等等。
14
混合Nash均衡的解释（3）
流浪汉
政府
流浪汉
寻找工作的概率小于0.2
概率为1：不救济
寻找工作
政府救济
15
猜谜游戏
求该猜谜游戏的混合战略纳什均衡
正面
1 -1， -1
5
社会福利博弈
寻找工作
2
流浪
3 -1，
救济
3， 1
0 0，
不救济
-1，
设：政府救济的概率：1/2 ；不救济的概率：1/2。
流浪汉：寻找工作的期望效用：1/2×2+1/2 ×1=1.5 流浪的期望效用： 1/2×3+1/2 ×0=1.5
因此，流浪汉的任何一种策略都是都是对政府混合战略的最优反应
6
社会福利博弈（2）
寻找工作
2 3， 1
流浪
3 -1， 0 0，
3r+（-1）（1-r）=4r-1
选择纯战略不救济的效用为：
-1r+0（1-r）=-r
如果一个混合战略（而不是纯战略）是政府的最优选择，一定意味着政府在救济与不救济之间是无差异的。
救济
不救济
-1，
4r-1=-r

博弈论混合策略纳什均衡 ppt课件

• 经济学上的监督博弈也是这样一个例子。如税收检查、质量检查、惩治犯罪、雇主监督雇员等都可以看成猜谜博弈。
博弈论混合策略纳什均衡
纳什定理：在一个由n个博弈方的博弈G { S 1 , S n ;u 1 , 中u n ，}
如果n是有限的，且都S是i 有限集(对 i1,) ，n则该博弈
至少存在一个纳什均衡，但可能包含混合策略。 • 证明过程省略，主要根据是布鲁威尔和角谷的不动点定理。 • 纳什均衡的普遍存在性正是纳什均衡成为非合作博弈分析
E A U p 1 X 1 p 2 X 2 . .p .n X n
博弈论混合策略纳什均衡
• 政府想帮助流浪汉，但前提是后者必须试图寻找工作，否则，不予帮助；而流浪汉若知道政府采用救济策略的话，他就不会寻找工作。他们只有在得不到政府救济时才会寻找工作。他们获得的支付如图所示：
流浪汉
寻找工作
博弈论混合策略纳什均衡
• 因此，秘决在于—— • 自己的策略选择不能预先被对手方知道或猜
测到，在该博弈的多次重复中，博弈方一定要避免自己的选择具有规律性； • 观察对手方策略选择是否具有规律或者偏好，预先猜测对手策略，从而采用针对性策略赢得这个博弈。
博弈论混合策略纳什均衡
• 纯策略(pure strategies)：如果一个策略规定参与人在一个给定的信息情况下只选择一种特定的行动。
游闲
政府
救济不救济
博弈论混合策略纳什均衡
• 思考：政府会采用纯策略吗？流浪汉呢？这个博弈有没有纯策略的纳什均衡？
• ——跟你玩剪子石头布游戏一样，你会一直采用纯策略吗？
• 那么政府和流浪汉最有可能采用什么策略？ • ——使自己的预期支付最大化。 • ——若能够猜的对方的策略，就可以采用针

第3章混合战略Nash均衡

All Rights Reserved, 2007, Luo Yunfeng
一、混合战略
• “猜硬币”博弈
两个参与人各握有一枚硬币，双方同时选择是正面向上(记作O)还是背面向上(记作R)，即他们的战略空间都是{O, R}。若两枚硬币是一致的(即全部背面向上或者全部正面向上)，参与人2赢得参与人1的硬币；若两枚硬币不一致，则参与人1赢得参与人2的硬币。
二、混合战略Nash均衡
• 提一个问题：在“猜硬币”游戏中，我们往往会以50%
的概率选择正面(O)，以50%的概率选择反面 (R)，即选择混合战略σ=(0.5，0.5)。那么有没有参与人会偏离混合战略σi=(0.5，0.5)呢？
Control Science and Engineering, HUST
个概率分布 i

(
1 i
,
...,

K i
)
其中

j i
(
j

1,...,
K)
表示参与人i选择战略
sij
的概率，即 ij 满足：
K
0

j i
1
,

j i
1
j 1
Control Science and Engineering, HUST
All Rights Reserved, 2007, Luo Yunfeng
All Rights Reserved, 2007, Luo Yunfeng
第三章混合战略Nash均衡
主要内容：一、混合战略；二、混合战略Nash均衡；三、混合战略Nash均衡的求解。
Control Science and Engineering, HUST

第三章混合策略纳什均衡(博弈论教程石家庄经济学院,

博弈论第三章
15
第一讲概念与方法
第二节研究方法：反应函数法
➢——最佳反应函数曲线交叉法
➢一、案例：麦琪的礼物
➢
Dela
➢
剪发q 保留（1-q）
➢
卖表p
-2，-2
2，2
➢Jim
2，2
0，0
➢ 保留（1-p）
2021年6月30日
博弈论第三章
16
第一讲概念与方法
二、研究方法：反应函数法
➢二、期望支付 ➢1.UJim=(-2)pq+2p(1-q)+2(1-p)q+0(1-
p
➢1.交点（1，0） 1
互相为对方着想，期望支付
变小
➢双方支付为2
➢2.交点（0，1）
➢双方支付为2 1/3
➢3.交点（1/3，1/3）
➢双方支付为2/3
1/3
q 1
2021年6月30日
博弈论第三章
20
第一讲概念与方法
作业
➢利用反应函数法求解“社会福利博弈” ➢是否需要调整数据？ ➢可得出有关社会保障体系改革的结论？
Dela 剪发越好
➢UDel=2q(1-3p)+2p
1,ifp 1/ 3,此时1 3p 0, q越大越好 q [0,1],ifp 1/ 3
0,ifp 1/ 3,此时1 3p 0, q越小越好
2021年6月30日
博弈论第三章
19
第一讲概念与方法
二、研究方法：反应函数法
➢四、反应函数曲
线
p)(1-q)=2p(1-3q)+2q ➢整理原则：一项含p，一项不含p ➢2.UDel=(-2)pq+2p(1-q)+2(1-p)q+0(1p)(1-q)=2q(1-3p)+2p ➢整理原则：一项含q，一项不含q

混合策略纳什均衡

03 混合策略纳什均衡的证明方法
反证法
总结词
通过假设不成立来证明均衡的存在。
详细描述
反证法是一种常用的证明方法，它首先假设与结论相反的命题成立，然后通过逻辑推理和数学推导，得出矛盾的结论，从而证明原命题的正确性。在证明混合策略纳什均衡的存在时，反证法可以用来证明当其他玩家采取了最优策略时，某个玩家采取混合策略能够达到最优结果。
唯一性意味着在给定对手策略的情况下，每个参与者都只有一个最优反应，从而避免了复杂的策略互动和不确定性。
存在性
混合策略纳什均衡的存在性是指在某些博弈中，至少存在一个策略组合，使得每个参与者在给定其他参与者策略的情况下，采用混合策略是最优的。
存在性通常通过数学证明和计算机搜索等方法来证明，但并不是所有博弈都有混合策略纳什均衡。
混合策略纳什均衡
目录
CONTENTS
• 混合策略纳什均衡的定义 • 混合策略纳什均衡的特性 • 混合策略纳什均衡的证明方法 • 混合策略纳什均衡的应用场景 • 混合策略纳什均衡的局限性 • 混合策略纳什均衡的发展前景
01 混合策略纳什均衡的定义
定义
混合策略纳什均衡是一种博弈论中的均衡概念，它描述了在给定对手策略的情况下，参与者如何选择最优策略以最大化自己的期望收益。
代数法是一种通过数学符号和公式进行推理和证明的方法。在证明混合策略纳什均衡的存在时，代数法可以用来推导和证明纳什均衡的条件和性质，利用代数性质和技巧来证明均衡的存在。
04 混合策略纳什均衡的应用场景
经济学
竞争策略分析
混合策略纳什均衡在经济学中被用于分析竞争策略，特别是在不完全竞争市场和寡头垄断市场中。通过混合策略纳什均衡，可以研究企业在不确定环境下的最优反应，以及企业如何通过调整其策略来应对竞争对手的行为。

博弈论混合策略纳什均衡

博弈方1 （0.8，0.2） 2.6
博弈方2 （0.8，0.2） 2.6
夫妻之争的混合策略纳什均衡
看看这个博弈有几个均衡?
时装妻子
足球
时装 2， 1
丈夫
足球 0， 0
0， 0
1， 3
夫妻之争
存在两个纯策略均衡
时装妻子
足球
时装 2， 1
丈夫
足球 0， 0
0， 0
1， 3
夫妻之争
还存在混合策略纳什均衡
vL1,13vL0, 0.5
政府和流浪汉的博弈
• 如果政府救济的概率小于0.5； • 则流浪汉的最优选择是寻找工作； • 如果政府救济的概率大于0.5； • 则流浪汉的最优选择是游闲等待救济。 • 如果政府救济的概率正好等于0.5； • 流浪汉的选择无差异。
讨论
• 上面的均衡要求每个参与人以特定的概率选择纯策略。也就是说，一个参与人选择不同策略的概率不是由他自己的支付决定的，而是由他的对手的支付决定的。
n
• 证明过程省略，主要根据是布鲁威尔和角谷i 的不动点定理。
• 纳什均衡的普遍存在性正是纳什均衡成为非合作博弈分析核心概念的根本原因之一。
§扑克牌对色游戏
• 甲乙玩扑克牌对色游戏，每人都有红黑两张扑克牌，约定如果出牌颜色一样，甲输乙赢，如果出牌颜色不一样，则甲赢乙输。
• 找到这个博弈的纳什均衡。
字母说明
• 此博弈不存在纯策略纳什均衡。 • 我们用p代表税收机关检查的概率；q代表纳税人逃税的概率。
求解：混合战略纳什均衡之一
• 假定纳税人采用混合策略达到最优选择时，则税收机关在检查和不检查两种策略的期望收益相等：
• (a-C+F) q+(a-C)(1- q)=a(1- q) • q*=C/（a+F）

混合策略纳什均衡正式版PPT文档

• 混合策略 vs.纯策略 (不确定性 vs.确定性)
•在博弈 G { S 1 , S n ;u 1 , u n } 中，博弈方i 的策略空Si {si1, sik }
间
i ，那么p博i 弈(p 方i1, 以,p 概ik)率分布 k
随机在其个可p 选i1 策略中p 选ik择1 的“策略〞0，p称ij 为1一个j “1,混 ,合k策
略〞，其中
对
都成立，且
•纯策略可以理解为混合策略的特例，即在诸多策略中，选择该纯策略的概率为1，选其他纯策略的概率为0.
•为何参与人可能会选择带不确定性的混合策略而放弃确定性的纯策略？
•参与人主观因素造成的犹豫不决
•外在客观因素的不确定性带来应对策略的不确定性
•迷惑对手：为了让其它参与人不能清楚了解自己的选择
混合策略的提出——猜硬币博弈
混检合查策成•略本纳C 此什越均高时衡，的纳，含税流义人：逃浪税的汉概选率就择越大任。何混合策略的期望效用都是1.5，那么流浪汉的税收机关以任何的一概种率检策查，略纳(税纯人以的γ=1的或概率γ选=择0逃或税混。合的0<γ<1)都是政府所选择的混合策略的最优反响。 E1(反面)=1× r + (-1)×(1-r) = 2 r-1
•参与人的支付为
ui(s1j1,s2j2 ,snjn)
p p 1j1 2j2
pnjn
•发生此情况的概率为
• 参E 与i(人p )的期m 1望m 2 效用m n ：p 1j1p 2j2 p n jnu i(s1j1,s2j2 ,sn jn) j1 1j2 1 jn 1
• 由于混合策略伴随的是支付的不确定性，因此参与人关心的是其期望效用。
设：政府救济的概率θ=1/2 ；

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

混合策略
◆混合策略定义：在n人博弈的策略式表述 G S1, , Sn ; u1, , un Si Si1, , SiK ，那么，概率中，假定参与人 i 有K个纯策略：分布 pi pi1 , , piK 称为 i 的一个混合策略，这里
pik p(sik ) 是 i 选择 sik 的概率，对于所有
这个故事曾经被很多人当作博弈论的例子来演绎，但实际上这个故事与博弈论无关。博弈论会假定所有局中人都是理性的，不能假定一些局中人聪明而另一些局中人却是傻子。当田忌出下马时，齐威王最好的选择是出下马而不是上马。孙膑的计谋中假定齐威王是傻子，当田忌出下、上、中马时，他仍然按上、中、下马出，当然要输了。事实上，当田忌出下马时，齐威王应出下马，但齐威王出下马时，田忌不应出下马而是出中马，但此时齐威王又应出中马而不是下马了，……。这样，博弈不会有纯战略的均衡。

-2，3
2，2
假定老板选择混合战略（0.2，0.8) 工人选择“偷懒”期望支付为(-1)×0.2+3×0.8=2.2 工人选择“不偷懒”（期望）支付为2×0.2+2×0.8=2 工人应选择“偷懒” 老板选择“监督” “不偷懒’……

假定老板选择混合战略（0.5， 0.5) 工人选择“偷懒”期望支付 0.5 为 (-1)×0.5+3×0.5=1 工人选择“不偷懒”期望支 0.5 付为2×0.5+2×0.5=2 工人应选择“不偷懒” 老板选择“不监督” 工人选择“偷懒’……
由 VA =VB 可得：q=0.8 博弈方2：
VB =3q (1 q)
博弈方 1
A B
VC =3 p (1 p)
VD =2 p 5(1 p)
由 VC =VD 可得：p=0.8
策略期望得益得双方的策略及相应得益：博弈方1 （0.8，0.2） 2.6 博弈方2 （0.8，0.2） 2.6
多重均衡博弈和混合策略
一、夫妻之争的混合策略纳什均衡
◆首先，该博弈有两个纳什均衡，本博弈的两个博弈方不会害怕对方猜到自己的选择，他们主观上并不想隐藏自己的选择。因此，该博弈中两博弈方的决策思路和原则应该与没有纳什均衡的严格竞争博弈有所不同。丈夫时装足球妻子时装足球 2， 1 0， 0 0， 0 1， 3
对于大企业，因一旦偷税数额就巨大，所以，税务部门在随机检查时放在大企业上的可能性就大一些；而给定税务部门检查大企业的可能性较大，大企业偷漏税的行为就较少，否则就容易被逮个正着。所以，偷漏税较多的就是一些中小企业，大企业纳税的积极性较高。同样的道理，在犯罪或对错误的监督惩罚博弈中，也是混合博弈，人们可能总是大错不犯小错不断。
两人只能玩混合战略博弈，齐威
王分别以 1/6 随机的概率选择出上、中、下马的任一排列，田忌也如此。由于齐威王存在绝对优势，他平均看来仍然会赢田忌一千斤铜。
混合策略均衡
◆纯策略与纯策略纳什均衡纯策略：肯定会被选择——以100%的概率——被选择的策略。 ◆混合策略混合策略：以一定的概率分布选择某几个行动的策略。
其中，博弈方1的期望得益为：
u1e pqu1 A, C p(1 q)u1 A, D (1 p)qu1 B, C (1 p)(1 q)u1 B, D 0.8 0.8 2 0.8 0.2 5 0.2 0.8 3 0.2 0.2 1 2.6
例子1 为什么一般人总是小错不断，大错不犯；偷税漏税的一般是中小企业，大企业会老老实实地交税？
税务部门不会对所有企业的交税情况每一次都去检查，因为这样做的成本太高，得不偿失。所以，税务部门总是随机地对企业的交税情况进行检查。
企业也是随机地在交税与偷漏税之间进行选择。税收部门与企业间进行的是混合战略博弈。因为如果企业总是交税，税务部门就最好不检查；但给定不检查，企业就会偷漏税。所以，两者只有在随机地检查与不检查，企业随机地在偷漏税与交税之间选择，才会达成均衡。
p ( p1 ,, pi ,, pn )
期望支付
例：
参与人2
◆参与人1的混合策略：（p,1-p) 参与人2的混合策略：(q,1-q) ◆参与人1的期望支付：如果参与人1选择S11：
1-q
S21
参与人2
q
S22
qu1 (1 q)u3
如果参与人1选择S12：
qu5 (1 q)u7
混合策略均衡
例：监督博弈
工人偷懒老板监督不监督 1，-1 -2，3 不偷懒 -1，2 2，2
给定工人偷懒，老板的最优选择是监督；给定老板监督，工人的最优选择是不偷懒；给定工人不偷懒，老板的最优选择是不监督；给定老板不监督，工人的最优选择是偷懒；如此循环。
混合策略均衡
工人偷懒监督老板不监督 1，-1 不偷懒 -1，2
支付最大化法求混合战略纳什均衡
工人偷懒老板监督不监督 1，-1 -2，3 p 不偷懒 -1，2 2，2 1-p q 1-q
给定工人的混合战略为(p,1-p)，老板的混合战略为(q,1-q)
工人的期望支付函数为 (-1)pq+2(1-p)q+3p(1-q)+2(1-p)(1-q)=-4pq+p-2q+2 最优化一阶条件为：-4q+1=0 q*=1/4
头
剪
子
布
0， 0 1， -1 -1， 1 -1， 1 0， 0 1， -1 1， -1 -1， 1 0， 0
但是，我们知道，玩这个游戏总是以对方不易猜出的随机方式出招。事实上，可以通过数学证明，当双方都以每个战略按 1/3 的概率出招时，达成一种双方都不愿改变这种概率分布的局面。这被称为“混合战略纳什均衡”，而这种以随机方式选择纯战略的博弈被称为 “混合战略博弈”。以混合战略博弈我们来看下面几个例子。
混合策略博弈
小孩玩的游戏“石头，剪子，布” ，也是一种博弈。但是，这个博弈有一种有趣的特征，即给定一方的任何选择，另一方都有制胜对方的战略，因而这个战略不是最优的。任何“纯战略”都不是最优的，纯战略是“石头，剪子，布”中的任何一个。
石头、剪刀、布
博弈方2 石
博弈方 1 石头剪子布
工Байду номын сангаас选择
混合策略均衡
什么情况下达到纳什均衡状态？假定存在一个概率q，老板选择混合策略（q，1-q）工人选择“偷懒”期望收益为(-1)×q+3×(1-q)=3-4q 工人选择“不偷懒”收益为2 如果老板真的以概率q选择监督，1-q选择不监督，那么意味着他不会始终重复地选择某个纯策略，而他不重复选择的条件必须是工人也不会重复地选择纯策略。因此，老板以概率q选择监督必然意味着在这种情况下工人没有合适的纯策略选择。====老板的选择必须使工人在两个纯策略之间随机选择。工人什么情况下随机选择？
的 k 1, , K ,0 pik 1, 1K pik 1
。
◆ 显然，纯策略可以理解为混合策略的特例，比如说，纯 1,0, ,0 ，即选择纯策略 si ' 策略 si ' 等价于混合策略 pi 的概率为1，选择任何其他纯策略的概率为0。 ◆混合策略纳什均衡：包含混合策略的策略组合，构成纳什均衡。
黑
不存在前面定义的纳什均衡策略组合。
这类博弈很多，引出混合策略纳什均衡概念。
混合策略的相关概念
◆混合策略是一种按照什么概率选择这个纯策略、
按照什么概率选择那种纯策略的策略选择指示。 ◆混合策略表明：参与人可以按照一定的概率，随机地从纯策略集合中选择一种纯策略的实际行动。 ◆期望值：假定存在 n 个可能的取值 X1, X 2 ,, X n ， p1 , p2 ,, pn ，则期并且这些取值发生的概率分别为：望值为： p1 X1 p2 X 2 pn X n

博弈方2的期望得益为：
u1e pqu2 A, C p(1 q)u2 A, D (1 p)qu2 B, C (1 p)(1 q)u2 B, D 0.8 0.8 3 0.8 0.2 1 0.2 0.8 2 0.2 0.2 5 2.6
例子2 田忌赛马新编
春秋战国时期，齐威王常与旗下大将田忌赛马。规则是：每次赛三局，每一局齐威王与田忌各出一匹马比赛奔跑速度。每一局中的胜者赢败方一千斤铜。田忌有上、中、下三匹马，而齐威王也有上、中、下三匹马。每次比赛，第一局田忌出上马，齐威王也出上马；第二局田忌出中马，齐威王也出中马；第三局，田忌出下马，齐威王也出下马。齐威王的上马比田忌的上马好，齐威王的中马也比田忌的中马好，齐威王的下马还是比田忌的下马好。于是，每次比赛的结果都是田忌连输三局。
第三讲混合策略纳什均衡
主讲人：李美娟
引言
◆有些博弈不存在纳什均衡，或者纳什均衡不唯
一，如猜硬币博弈，前述纳什均衡分析就无法对博弈方的选择和博弈结果作明确的预测。 ◆这部分对不存在纳什均衡和存在多个纳什均衡的博弈作一些讨论。
混合策略的引进
一、扑克牌对色游戏红甲
红 -1， 1 1， -1 乙黑 1， -1 -1， 1
混合策略均衡
设是n人策略式博弈 G S1, , Sn ; u1, , un 的一个混合策略组合。如果对于所有的i 1,, n ， Vi ( pi , pi ) Vi ( pi , pi ) 对于每一个 pi 都成立，则称混 p ( p , , p , , p 合策略组合 1 i n ) 是这个博弈的一个纳什均衡。
混合策略均衡
◆当工人选择任何一个策略的期望支付相等时，只能随机选择。于是，3-4q=2 ，即q*=1/4,1- q*=3/4。这样，当老板选择（1/4，3/4）的混合战略时，可以使工人在两个纯战略之间无差异。 ◆ 同理，假设工人选择(p,1-p)，(p,1-p)成为其最优混合战略的条件是老板在选择监督与选择不监督之间无差异，即 1×p+(-1)(1-p)=(-2)p+2(1-p)，即p*=1/2,1- p*=1/2。 ◆当老板选择（1/4，3/4），工人选择（1/2，1/2）时，刚好互为彼此的最优反应，达到纳什均衡状态,称为混合战略纳什均衡。