混合策略纳什均衡

合集下载

混合策略纳什均衡

02
混合策略纳什均衡的基本理论
纳什均衡的定义与性质
纳什均衡的定义
在博弈中，如果每个玩家都采取自己的最优策略，那么整个博弈会达到一种均衡状态，即所有参与者的利益达到最大化。
纳什均衡的性质
纳什均衡是一种自我稳定的状态，即使受到外部干扰，也会迅速恢复到原始状态。此外，纳什均衡也是最优的，因为它使得每个参与者的利益都达到最大化。
其次，现有的研究往往只关注特定的博弈模型，对于更一般化的博弈模型，尤其是对于连续型博弈和多阶段博弈的研究还比较缺乏。
首先，混合策略纳什均衡的概念和性质仍需进一步深化和研究。例如，对于非完全信息博弈，如何准确地刻画混合策略纳什均衡点的数量和分布等问题仍需探索。
最后，现有的研究主要集中在理论层面，对于如何将混合策略纳什均衡应用到实际问题中，如何设计和制定有效的混合策略等问题还需要进一步探讨。
未来研究方向与挑战
未来研究可以进一步拓展混合策略纳什均衡的应用领域，例如在经济学、政治学、社会学等领域的应用。
另外，针对现有的研究不足，未来研究可以深入探索混合策略纳什均衡的性质和计算方法，以及如何设计和制定有效的混合策略等问题。
此外，未来的研究还可以进一步拓展混合策略纳什均衡的理论框架，例如在多阶段博弈、不完全信息博弈、非线性博弈等领域的研究。
略纳什均衡来分析。
在生物学领域的应用
在生物学中，混合策略纳什均衡可以用来研究生物种群的进化稳定性和生态平衡。
在生态系统中，生物种群可以通过选择不同的繁殖、迁徙、捕食等策略来适应环境变化，这种博弈关系可以通过混合策略纳什均衡来分析。
在其他领域的应用
在社会学中，混合策略纳什均衡可以用来研究社会群体中的合作与竞争关系。

混合策略纳什均衡例子

混合策略纳什均衡例子混合策略纳什均衡是博弈论中的一个重要概念，指的是各参与者选择一个概率分布作为他们的策略，从而达到一个稳定的状态。

在混合策略纳什均衡中，没有任何参与者可以通过单独改变自己的策略来获得更好的结果。

一个经典的混合策略纳什均衡的例子是“岩石-剪刀-布”游戏。

在这个游戏中，两个参与者（称为玩家1和玩家2）可以选择出岩石、剪刀或布中的任意一种。

每一种选择都有一定的胜负规则：岩石胜剪刀，剪刀胜布，布胜岩石。

假设玩家1选择出岩石、剪刀和布的概率分别为p1、q1和r1，玩家2选择出岩石、剪刀和布的概率分别为p2、q2和r2。

两个玩家的利益可以用一个支付矩阵表示如下：| 岩石 | 剪刀 | 布-----------------------------岩石 | 0 | -1 | 1-----------------------------剪刀 | 1 | 0 | -1-----------------------------布 | -1 | 1 | 0在混合策略纳什均衡中，每个玩家选择的概率分布必须使得对于每一种选择，玩家都不希望改变自己的概率分布。

在这个例子中，我们可以通过计算来找到混合策略纳什均衡。

假设玩家1选择出岩石的概率为p1，则选择剪刀的概率为q1=1-p1-0=1-p1，选择布的概率为r1=0-0=0。

同样地，玩家2选择出岩石的概率为p2，则选择剪刀的概率为q2=1-p2-0=1-p2，选择布的概率为r2=0-0=0。

为了找到混合策略纳什均衡，我们需要检查每一种选择，并确保玩家对于每一种选择都不希望改变自己的概率分布。

在这个例子中，无论玩家1选择什么概率分布，玩家2都可以通过选择相应的概率分布来获得更好的结果。

所以，不存在一个混合策略纳什均衡。

总结起来，混合策略纳什均衡是博弈论中一种稳定的策略选择状态，即不存在任何参与者可以通过单独改变自己的策略来获得更好的结果。

岩石-剪刀-布游戏是一个经典的混合策略纳什均衡的例子，其中玩家的选择概率分布是关键因素。

博弈论-混合策略纳什均衡

，以达到均衡状态。
政治学的案例分析
总结词：国际关系
详细描述：在国际关系中，混合策略纳什均衡可以用来解释国家之间的竞争和合作。例如，两个国家可能会以一定的概率选择不同的外交政策，例如结盟、中立或对抗，以达到各自的利益最大化。
生物学的案例分析
总结词
捕食者-猎物博弈
详细描述
在生物学中，混合策略纳什均衡可以用来解释捕食者与猎物之间的博弈。例如，捕食者可能会采用追逐和放弃两种策略来捕猎猎物，而猎物也可能会采用逃跑和装死两种策略来避免被捕食。最终，捕食者和猎物都以一定的概率随机选择不同的策略，以达到均衡
非合作博弈论
研究个体如何在不知道其他个体如何行动的情况下做出最优决策。
博弈论的基本概念
参与者
参与博弈的决策主体，可以是个人、组织或国
家。
行动
参与者根据给定的信息所做出的决策。
信息
参与者在进行决策时所拥有的数据、情报或知
识。
策略
参与者为达到最优结果而采取的一系列行动的
方案。
博弈论的应用场景
状态。
生物学的案例分析
总结词：繁殖竞争
VS
详细描述：在生物种群中，不同个体之间会存在繁殖竞争。为了最大化自己的遗传贡献，个体可能会采用不同的交配策略，例如追求高繁殖成功率的策略或避免过度竞争的策略。混合策略纳什均衡可以用来描述这种竞争状态下的交配行为。
THANKS FOR WATCHING
繁殖博弈
在繁殖博弈中，生物个体通过选择不同的繁殖和竞争策略来繁衍后代。混合策略纳什均衡可以用来分析繁殖过程的均衡结果，解释生物多样性的形成机制。
05 混合策略纳什均衡的案例分析
经济学的案例分析

博弈论混合策略纳什均衡名词解释

博弈论混合策略纳什均衡名词解释博弈论混合策略纳什均衡是指在博弈论中，当参与者不能确定选
择某一个策略时，采取混合策略的情况下达到的均衡状态。

具体来说，混合策略是指在一个博弈中，参与者以一定的概率选
择不同的纯策略。

而纳什均衡是指在一个博弈中，参与者无法通过单
独改变自己的选择来获得更好的结果，即不存在任何参与者可以通过
改变自己的策略来让其他参与者不再选择当前策略。

混合策略纳什均衡是指游戏中所有参与者以一定的概率选择不同
的纯策略，并且这种概率分配对于所有参与者都是最优的。

也就是说，在混合策略纳什均衡下，参与者没有更好的选择可供其采取，而其他
参与者也没有更好的概率分配可供其选择。

拓展：
在博弈论中，还有许多其他类型的均衡概念，例如纯策略纳什均衡、帕累托均衡、部分均衡等等。

纯策略纳什均衡是指游戏中参与者
以确定性的纯策略进行选择，使得没有参与者可以通过改变其策略来
获得更好的结果。

帕累托均衡是指在一个博弈中，不存在可以改善任
何一个参与者的情况。

部分均衡是指只有某些参与者达到均衡状态，而其他参与者未达到均衡状态。

博弈论是研究决策制定者在相互影响下进行决策的数学工具。

通过分析不同的博弈策略和可能的结果，博弈论可以帮助我们理解冲突和合作的情况，并提供一些决策建议。

第三讲_混合策略纳什均衡

混合策略
◆混合策略定义：在n人博弈的策略式表述 G S1, , Sn ; u1, , un Si Si1, , SiK ，那么，概率中，假定参与人 i 有K个纯策略：分布 pi pi1 , , piK 称为 i 的一个混合策略，这里
pik p(sik ) 是 i 选择 sik 的概率，对于所有
这个故事曾经被很多人当作博弈论的例子来演绎，但实际上这个故事与博弈论无关。博弈论会假定所有局中人都是理性的，不能假定一些局中人聪明而另一些局中人却是傻子。当田忌出下马时，齐威王最好的选择是出下马而不是上马。孙膑的计谋中假定齐威王是傻子，当田忌出下、上、中马时，他仍然按上、中、下马出，当然要输了。事实上，当田忌出下马时，齐威王应出下马，但齐威王出下马时，田忌不应出下马而是出中马，但此时齐威王又应出中马而不是下马了，……。这样，博弈不会有纯战略的均衡。

-2，3
2，2
假定老板选择混合战略（0.2，0.8) 工人选择“偷懒”期望支付为(-1)×0.2+3×0.8=2.2 工人选择“不偷懒”（期望）支付为2×0.2+2×0.8=2 工人应选择“偷懒” 老板选择“监督” “不偷懒’……

假定老板选择混合战略（0.5， 0.5) 工人选择“偷懒”期望支付 0.5 为 (-1)×0.5+3×0.5=1 工人选择“不偷懒”期望支 0.5 付为2×0.5+2×0.5=2 工人应选择“不偷懒” 老板选择“不监督” 工人选择“偷懒’……
由 VA =VB 可得：q=0.8 博弈方2：
VB =3q (1 q)
博弈方 1
A B
VC =3 p (1 p)
VD =2 p 5(1 p)

混合策略纳什均衡

(红 ) r 1 1/2 0 1/2 1 q （红）
博弈论第三章混合策略纳什均衡
r*=R(q)
反应对应曲线
第二节混合策略纳什均衡的求解方法
二、反应对应法
例：扑克牌对色游戏(p77)
再看乙的最优反应，记为q*=R(r)：观察π乙(p甲, p乙)= 2q(2r-1)-(2r-1)
若r 1 / 2 2r 1 0, q越大越好 1, q* R( r ) [0,1], 若r 1 / 2 2r 1 0，无论q选什么都无影响 0, 若r 1 / 2 2r 1 0, q越小越好
博弈论第三章混合策略纳什均衡
第二节混合策略纳什均衡的求解方法
二、反应对应法
例：扑克牌对色游戏(p77)
先看甲的最优反应，记为r*=R(q)：观察π甲(p甲, p乙)= 2r(1-2q)+(2q-1)
若q 1 / 2 1 2q 0, r越小越好 0, r* R( q) [0,1], 若q 1 / 2 1 2q 0，无论r选什么都无影响 1, 若q 1 / 2 1 2q 0, r越大越好
解：Max π甲(p甲, p乙) r Max π乙(p甲, p乙) q
f.o.c. 2r-1=0
r*=1/2
混合策略纳什均衡是甲在策略空间{红，黑}上以概率分布 p甲*= （1/2，1/2）进行选择，乙也在策略空间{红，黑}上以概率p乙*= （1/2，1/2）进行选择
博弈论第三章混合策略纳什均衡
第二节混合策略纳什均衡的求解方法
二、支付最大化法
例：扑克牌对色游戏(p77)
无纯策略NE 给定混合策略p甲=(r,1-r); p乙=(q,1-q) π甲(p甲, p乙)=r[q(-1)+(1-q) 1]+ (1-r)[q1+(1-q)(-1)] = 2r(1-2q)+(2q-1) π乙(p甲, p乙)=q [r1+(1-r)(-1)]+ (1-q)[r(-1)+(1-r)1] =2q(2r-1)-(2r-1) f.o.c. 1-2q=0 q*=1/2

混合策略纳什均衡

03 混合策略纳什均衡的证明方法
反证法
总结词
通过假设不成立来证明均衡的存在。
详细描述
反证法是一种常用的证明方法，它首先假设与结论相反的命题成立，然后通过逻辑推理和数学推导，得出矛盾的结论，从而证明原命题的正确性。在证明混合策略纳什均衡的存在时，反证法可以用来证明当其他玩家采取了最优策略时，某个玩家采取混合策略能够达到最优结果。
唯一性意味着在给定对手策略的情况下，每个参与者都只有一个最优反应，从而避免了复杂的策略互动和不确定性。
存在性
混合策略纳什均衡的存在性是指在某些博弈中，至少存在一个策略组合，使得每个参与者在给定其他参与者策略的情况下，采用混合策略是最优的。
存在性通常通过数学证明和计算机搜索等方法来证明，但并不是所有博弈都有混合策略纳什均衡。
混合策略纳什均衡
目录
CONTENTS
• 混合策略纳什均衡的定义 • 混合策略纳什均衡的特性 • 混合策略纳什均衡的证明方法 • 混合策略纳什均衡的应用场景 • 混合策略纳什均衡的局限性 • 混合策略纳什均衡的发展前景
01 混合策略纳什均衡的定义
定义
混合策略纳什均衡是一种博弈论中的均衡概念，它描述了在给定对手策略的情况下，参与者如何选择最优策略以最大化自己的期望收益。
代数法是一种通过数学符号和公式进行推理和证明的方法。在证明混合策略纳什均衡的存在时，代数法可以用来推导和证明纳什均衡的条件和性质，利用代数性质和技巧来证明均衡的存在。
04 混合策略纳什均衡的应用场景
经济学
竞争策略分析
混合策略纳什均衡在经济学中被用于分析竞争策略，特别是在不完全竞争市场和寡头垄断市场中。通过混合策略纳什均衡，可以研究企业在不确定环境下的最优反应，以及企业如何通过调整其策略来应对竞争对手的行为。

混合策略纳什均衡

11
田忌的谋士孙膑了解了田忌的困境
后，就打听到这样一个消息：尽管齐威
王的上、中、下三匹马都要比田忌的对
应上、中、下三匹马好，但碰巧的是田
忌的上马可胜齐威王的中马，田忌的中
马可胜齐威王的下马。于是，孙膑为田
忌献计：下一次比赛中第一局时田忌出
下马对齐威王的上马输一局，第二局田
忌出上马对齐威王的中马，第三局田忌
9
对于大企业，因一旦偷税就数目巨大，所以，税务部门在随机检查时放在大企业上的可能性就大一些；而给定税务部门检查大企业的可能性较大，大企业偷漏税的行为就较少，否则就容易被逮个正着。所以，偷漏税较多的就是一些中小企业，大企业纳税的积极性较高。同样的道理，在犯罪或对错误的监督惩罚博弈中，也是混合博弈，人们可能总是大错不犯小错不断。
15
混合策略均衡
◆混合策略定义：在n人博弈的策略式表述G S1,, Sn;u1,,un 中，假定参与人 i 有K个纯策略：Si Si1,, SiK ，那么，概率
分布 pi pi1,, piK 称为参与人 i 的一个混合策略，这里
pik p(sik ) 是参与人 i 选择sik 的概率，对于所有
14
混合策略均衡
◆纯策略与纯策略纳什均衡 ➢ 纯策略：肯定会被选择——以100%的概率——被
选择的策略。
➢ 纯策略纳什均衡：各个参与人都选择纯策略的纳什均衡。
◆混合策略与混合策略纳什均衡
➢ 混合策略：以一定的概率分布选择某几个行动的策略。
➢ 混合策略纳什均衡：由参与人的混合策略构成的纳什均衡。
当田忌出下、上、中马时，他仍然按上、中、
下马出，当然要输了。事实上，当田忌出下马
时，齐威王应出下马，但齐威王出下马时，田

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

混合策略纳什均衡
路漫漫其修远兮, 吾将上下而求索
2020年4月11日星期六
§剪刀、石头、布的游戏
• 每个同学跟后面一排对应的同学玩剪刀、石头、布的游戏.
• 玩二十次,将结果记下来 • 赢了十次以上同学举起手来 • 告诉我你有什么秘决 • 怎么样才能赢得多？
路漫漫其修远兮, 吾将上下而求索
•
§剪刀、石头、布的游戏
路漫漫其修远兮, 吾将上下而求索
•
纳什均衡的存在性
纳什定理：在一个由n个博弈方的博弈
中
，如果n是有限的，且都是有限集(对
)，则该博
弈至少存在一个纳什均衡，但可能包含混合策略。
• 证明过程省略，主要根据是布鲁威尔和角谷的不动点定理。
• 纳什均衡的普遍存在性正是纳什均衡成为非合作博弈分析核心概念的根本原因之一。
路漫漫其修远兮, 吾将上下而求索
•
求解混合策略纳什均衡
•1、假定政府采用混合策略： •2、流浪汉的混合策略为：
路漫漫其修远兮, 吾将上下而求索
•
•解一:支付最大化 •那么，政府的期望效用函数为：
•对上述效用函数求微分，得到政府最优化的一阶条件为：
•就是说，从政府的最优化条件找到流浪汉混合策略— —流浪汉以0.2的概率选择寻找工作，0 .8的概率选择游闲。
路漫漫其修远兮, 吾将上下而求索
•
§扑克牌对色游戏
• 甲乙玩扑克牌对色游戏，每人都有红黑两张扑克牌，约定如果出牌颜色一样，甲输乙赢，如果出牌颜色不一样，则甲赢乙输。
• 找到这个博弈的纳什均衡。
路漫漫其修远兮, 吾将上下而求索
•
§剪刀、石头、布的游戏
• 因此，秘决在于—— • 自己的策略选择不能预先被对手方知道或猜
测到，在该博弈的多次重复中，博弈方一定要避免自己的选择具有规律性； • 观察对手方策略选择是否具有规律或者偏好，预先猜测对手策略，从而采用针对性策略赢得这个博弈。
路漫漫其修远兮, 吾将上下而求索
路漫漫其修远兮, 吾将上下而求索
•
§ 期望支付
• 与混合策略(mixed strategies)相伴随的一个问题,是局中人支付的不确定性(uncertainty).可用期望支付(expected payoff)来描述——有个n可能的取值X1,X2…,Xn ，并且这些取值发生的概率分别为p1,p2,…,pn，那么我们可以将这个数量指标的期望值定义为发生概率作为权重的所有可能取值的加权平均，也就是
路漫漫其修远兮, 吾将上下而求索
•
讨论
• 尽管混合策略不像纯策略那样直观，但它确实是一些博弈中参与人的合理行为方式。扑克比赛、垒球比赛、划拳就是这样的例子，在这一类博弈中，参与比赛的总是随机行动以使自己的行为不被对方所预测。
• 经济学上的监督博弈也是这样一个例子。如税收检查、质量检查、惩治犯罪、雇主监督雇员等都可以看成猜谜博弈。
路漫漫其修远兮, 吾将上下而求索
•
政府和流浪汉的博弈
• 思考：政府会采用纯策略吗？流浪汉呢？这个博弈有没有纯策略的纳什均衡？
• ——跟你玩剪子石头布游戏一样，你会一直采用纯策略吗？
• 那么政府和流浪汉最有可能采用什么策略？
• ——使自己的预期支付最大化。
• ——若能够猜的对方的策略，就可以采用针对性的策略，使自己的支付增加。
路漫漫其修远兮, 吾将上下而求索
•
政府和流浪汉的博弈
• 政府想帮助流浪汉，但前提是后者必须试图寻找工作，否则，不予帮助；而流浪汉若知道政府采用救济策略的话，他就不会寻找工作。他们只有在得不到政府救济时才会寻找工作。他们获得的支付如图所示：
•流浪汉
•寻找工作
游闲
•政府
•救济（3，2）（-1，3） •不救济（-1，1）（0，0）
• 答案是否定的。
• 事实上，局中人的选择仍然是很有讲究的，策略选择的好坏对局中人的利益仍然有很大的影响。
• 在这个零和博弈里，无论双方采用哪种策略组合，结果都是一方输一方赢，而输的一方又总是可以通过单独改变策略而反输为赢。如果哪个局中人能找到对手方的规律或者偏好，他就能猜测到对手的策略而采用针对性策略从而保证赢。
• 我们知道—— • 如果博弈只进行一次，我们无法明确预测博
弈的结果，不管是哪个博弈方，也不管他们的选择是哪个策略，都不能保证得到较好的结果。根据我们上一章所学的方法，这个博弈没有纳什均衡。
• 那么是不是意味着这样的博弈中，你可以随意选择，结果都一样呢？
路漫漫其修远兮, 吾将上下而求索
•
§剪刀、石头、布的游戏
路漫漫其修远兮, 吾将上下而求索
•
讨论
• 上面的均衡要求每个参与人以特定的概率选择纯策略。也就是说，一个参与人选择不同策略的概率不是由他自己的支付决定的，而是由他的对手的支付决定的。
• 正是由于这个原因，许多人认为混合策略纳什均衡是一个难以令人满意的概念。
• 事实上，正是因为它在几个（或全部）策略之间是无差异的，他的行为才难以预测，混合策略纳什均衡才会存在。
•
• 解二:支付等值法
如果一个混合策略是政府的最优选择，那一定意味着流浪汉在寻找工作与游闲之间是无差异的，即：
路漫漫其修远兮, 吾将上下而求索
பைடு நூலகம்
•
政府和流浪汉的博弈
• 如果政府救济的概率小于0.5； • 则流浪汉的最优选择是寻找工作； • 如果政府救济的概率大于0.5； • 则流浪汉的最优选择是游闲等待救济。 • 如果政府救济的概率正好等于0.5； • 流浪汉的选择无差异。
•
§ 第三章混合策略纳什均衡
• 纯策略(pure strategies)：如果一个策略规定参与人在一个给定的信息情况下只选择一种特定的行动。
• 混合策略(mixed strategies)：如果一个策略规定参与人在给定的信息情况下，以某种概率分布随机地选择不同的行动。
• 在静态博弈里，纯策略等价于特定的行动，混合策略是不同行动之间的随机选择。
路漫漫其修远兮, 吾将上下而求索
•
• 解一:支付最大化
• 流浪汉的期望效用函数为：
路漫漫其修远兮, 吾将上下而求索
•
解二:支付等值法
• 政府选择救济策略
• 政府选择不救济策略
•如果一个混合策略是流浪汉的最优选择，那一定意味着政府在救济与不救济之间是无差异的，即：
路漫漫其修远兮, 吾将上下而求索