您的位置：360文档中心› _混合策略纳什均衡(张克勇XXXX)

_混合策略纳什均衡(张克勇XXXX)

合集下载

混合策略纳什均衡

混合策略纳什均衡

博弈论简介（3）
(混合策略纳什均衡)
一个不存在纳什均衡的例子
硬币配对——“零和博弈”（zero sum game）
甲乙各持一枚硬币，同时选择手中硬币的正反面。若他们硬币的朝向相同，乙将赢得甲的硬币。反之，甲将赢得乙的硬币。
参与人乙正面H
正面H -1，+1 +1，-1
反面T
+1，-1 -1，+1
按照无差异原则，均衡中的q应使这两个表达式相等。
硬币配对博弈的混合策略均衡
参与人2
正面H(q) 参与人1 正面H 反面T -1，+1 +1，-1 反面T(1-q) +1，-1 -1，+1
• 也就是：1-2q=2q-1，即q=0.5 • 对称地，可以得到参与人1的最佳应对p=0.5 • 因此，（0.5,0.5）是这个硬币配对博弈的混合策略纳什均衡（符合直
在各自概率策略的选择下，双方的期望收益互为最大（任何单方面改变不会增加其收益）纳什证明：具有有限参与者和有限纯策略集的博弈一定存在纳什均衡（包括混合策略均衡）一般来说，找到混合策略的纳什均衡是很困难的，但在某些特定条件下能有系统的方法。
双人双策略、不含纯策略均衡的博弈——混合策略纳什均衡
考虑硬币面向的博弈
他正面H H 你 T +1，-1 -1，+1 -1，+1 反面T +1，-1
• 你若知道对方的策略是以0.7的概率出H，你会采取什么策略？如果他的概率是0.2呢？
• 你若知道对方的策略是以0.5的概率出H，你会采取什么策略？
“0.5”策略在此有什么特别？
如果对方用0.5，我出什么都
混合策略的收益计算例子

混合策略纳什均衡名词解释

混合策略纳什均衡名词解释

混合策略纳什均衡名词解释
嘿，朋友们！今天咱来聊聊混合策略纳什均衡！这可不是什么晦涩难懂的概念哦。

想象一下，在一个竞争的场景里，就像一场激烈的游戏，大家都在绞尽脑汁地想着怎么出招。

混合策略纳什均衡呢，就是在这种情况下，各方参与者都没办法通过单独改变自己的策略来获得更好的结果。

它就好像是一场微妙的平衡舞蹈！每个人都要在不同的选择之间跳跃，找到那个最合适的组合。

不是单纯地选择一个固定的策略，而是有时候这样，有时候那样，让对手捉摸不透。

好比是下棋，你不能总是走同样的几步，得灵活多变，根据对手的反应随时调整。

而且啊，这个均衡可不是那么容易达到的哦，需要各方参与者不断地试探、博弈。

它不是那种一眼就能看穿的简单玩意儿，而是隐藏在复杂的互动之中。

就像在迷雾中寻找方向，需要耐心和智慧。

在现实生活中，混合策略纳什均衡也无处不在呢！商业竞争中，企业要考虑怎么定价、怎么推广，不就是在寻找这种微妙的平衡吗？政治博弈中，各方势力也在不断调整策略，试图达到对自己最有利的状态。

甚至在我们的日常生活中，比如和朋友玩游戏，或者在一些选择中纠结，都能看到混合策略纳什均衡的影子。

它让我们明白，有时候没有绝对的最佳策略，只有在不断变化中找到的相对平衡。

混合策略纳什均衡就是这么神奇，这么有趣！它让我们看到了竞争和互动的复杂性，也让我们更加懂得如何在各种情况下做出明智的选择。

所以啊，别小瞧了这个概念，它可是有着大用处呢！。

博弈论-混合策略纳什均衡

博弈论-混合策略纳什均衡

，以达到均衡状态。
政治学的案例分析
总结词：国际关系
详细描述：在国际关系中，混合策略纳什均衡可以用来解释国家之间的竞争和合作。例如，两个国家可能会以一定的概率选择不同的外交政策，例如结盟、中立或对抗，以达到各自的利益最大化。
生物学的案例分析
总结词
捕食者-猎物博弈
详细描述
在生物学中，混合策略纳什均衡可以用来解释捕食者与猎物之间的博弈。例如，捕食者可能会采用追逐和放弃两种策略来捕猎猎物，而猎物也可能会采用逃跑和装死两种策略来避免被捕食。最终，捕食者和猎物都以一定的概率随机选择不同的策略，以达到均衡
非合作博弈论
研究个体如何在不知道其他个体如何行动的情况下做出最优决策。
博弈论的基本概念
参与者
参与博弈的决策主体，可以是个人、组织或国
家。
行动
参与者根据给定的信息所做出的决策。
信息
参与者在进行决策时所拥有的数据、情报或知
识。
策略
参与者为达到最优结果而采取的一系列行动的
方案。
博弈论的应用场景
状态。
生物学的案例分析
总结词：繁殖竞争
VS
详细描述：在生物种群中，不同个体之间会存在繁殖竞争。为了最大化自己的遗传贡献，个体可能会采用不同的交配策略，例如追求高繁殖成功率的策略或避免过度竞争的策略。混合策略纳什均衡可以用来描述这种竞争状态下的交配行为。
THANKS FOR WATCHING
繁殖博弈
在繁殖博弈中，生物个体通过选择不同的繁殖和竞争策略来繁衍后代。混合策略纳什均衡可以用来分析繁殖过程的均衡结果，解释生物多样性的形成机制。
05 混合策略纳什均衡的案例分析
经济学的案例分析

博弈论混合策略纳什均衡名词解释

博弈论混合策略纳什均衡名词解释

博弈论混合策略纳什均衡名词解释博弈论混合策略纳什均衡是指在博弈论中，当参与者不能确定选
择某一个策略时，采取混合策略的情况下达到的均衡状态。

具体来说，混合策略是指在一个博弈中，参与者以一定的概率选
择不同的纯策略。

而纳什均衡是指在一个博弈中，参与者无法通过单
独改变自己的选择来获得更好的结果，即不存在任何参与者可以通过
改变自己的策略来让其他参与者不再选择当前策略。

混合策略纳什均衡是指游戏中所有参与者以一定的概率选择不同
的纯策略，并且这种概率分配对于所有参与者都是最优的。

也就是说，在混合策略纳什均衡下，参与者没有更好的选择可供其采取，而其他
参与者也没有更好的概率分配可供其选择。

拓展：
在博弈论中，还有许多其他类型的均衡概念，例如纯策略纳什均衡、帕累托均衡、部分均衡等等。

纯策略纳什均衡是指游戏中参与者
以确定性的纯策略进行选择，使得没有参与者可以通过改变其策略来
获得更好的结果。

帕累托均衡是指在一个博弈中，不存在可以改善任
何一个参与者的情况。

部分均衡是指只有某些参与者达到均衡状态，而其他参与者未达到均衡状态。

博弈论是研究决策制定者在相互影响下进行决策的数学工具。

通过分析不同的博弈策略和可能的结果，博弈论可以帮助我们理解冲突和合作的情况，并提供一些决策建议。

混合策略纳什均衡

混合策略纳什均衡

令纯策略期望效用相等： 1 2r 2r 1 得 r1 2
类似地，令参与人2的纯战略期望效用相等得q ： 1 2
2019/11/29
20 EXIT
社会福利博弈
假定最优混合策略存在，给定流浪汉选择混合策略
( ,1 )
政府选择纯策略救济的期望效用为：
3 (1)(1 ) 4 1
理学院顾聪 gucong@
EXIT
4.1 严格竞争博弈和混合策略
1. 混合策略的提出——猜硬币博弈
两个参与人各拿一枚硬币，并选择出正面向上还是反面向上。若两枚硬币是一致的(即全部正面或全部反面)，则参与人2赢走参与人1的硬币；若两枚硬币不一致(一正一反)，参与人1赢得参与人2的硬币。支付矩阵如下：
• 这样，我们得到一个混合策略组合，每一个参与人的混合策略都是给定对方混合策略是的最优选择，从而构成混合策略纳什均衡。
策略期望收益政府 (0.5, 0.5) -0.2 流浪汉 (0.2, 0.8) 1.5
2019/11/29
11 EXIT
既然参与人在构成混合策略时选择不同纯策略之间是无差异的，他为什么不选择一个特定的纯策略而要以特定的概率随机地选择不同的纯策略呢？一个参与人选择混合策略目的是给其他参与人造成不确定性。
2019/11/29
5 EXIT
• 混合策略扩展博弈：
博弈方在混合策略的策略空间(概率分布空间)的选择看作一个博弈，就是原博弈的“混合策略扩展博弈”。
• 混合策略纳什均衡(MNE)：
由最优的混合策略构成的混合策略组合：
* (* , * ,, * )
12
n
即，如果对于所有的 i 1，2，，n，有
E1(正面)=(-1)×r+1×(1-r)=1-2r 参与人1选取反面的期望效用为

混合策略纳什均衡

混合策略纳什均衡

(陈明德语 r 陈明德语) 陈明德语 1 3/4 q*=R(r)
0 1/4 1 q 钟信德语）（钟信德语）
博弈论第三章混合策略纳什均衡
第三节寻找多重纳什均衡
德语 r
二、反应对应法：情侣博弈反应对应法：
陈明法语 1-r
钟信德语 q 法语 1-q 2 1 3 1 0 3 0 2
反应对应曲线有三个交点：三个：反应对应曲线有三个交点：三个NE： r*=0, q*=0 纯策略（确定性）纯策略（确定性）
(红) r 红 1 1/2 0 1/2 1 q （红） r*=R(q) q*=R(r)
博弈论第三章混合策略纳什均衡
第二节混合策略纳什均衡的求解方法
二、反应对应法
作业：社会福利博弈。使用反应对应法找到纳什均衡。作业：社会福利博弈。使用反应对应法找到纳什均衡。
流浪汉寻找工作游荡救济政府不救济
s1
第四节纳什均衡的存在性
问题：是否所有的博弈都存在（纯的或混合的）？问题：是否所有的博弈都存在NE（纯的或混合的）？（纯策略）纳什均衡的存在性定理(Debreu,1952；纯策略）纳什均衡的存在性定理； Glicksberg,1952；Fan,1952)：；：考虑一个n人策略式博弈, 考虑一个n人策略式博弈,如果每个参与人的纯策略空间S 是欧氏空间中的非空、闭而有界）的凸集, 空间Si是欧氏空间中的非空、紧（闭而有界）的凸集,支付函数u 连续且对拟凹,则博弈存在一个纯策略Nash 连续且对s 付函数 i(s)连续且对si拟凹,则博弈存在一个纯策略Nash 均衡。均衡。（混合策略）纳什均衡的存在性定理 (Glicksberg,1952)：混合策略）：在n人策略式博弈中,如果每个参与人的纯粹策略空人策略式博弈中, 是欧氏空间中的非空、闭而有界）的凸集, 间Si是欧氏空间中的非空、紧（闭而有界）的凸集,如果支付函数u 为连续函数为连续函数, 支付函数 i(s)为连续函数,那么博弈至少存在一个混合策 Nash均衡均衡. 略Nash均衡.

混合策略纳什均衡

混合策略纳什均衡

(红 ) r 1 1/2 0 1/2 1 q （红）
博弈论第三章混合策略纳什均衡
r*=R(q)
反应对应曲线
第二节混合策略纳什均衡的求解方法
二、反应对应法
例：扑克牌对色游戏(p77)
再看乙的最优反应，记为q*=R(r)：观察π乙(p甲, p乙)= 2q(2r-1)-(2r-1)
若r 1 / 2 2r 1 0, q越大越好 1, q* R( r ) [0,1], 若r 1 / 2 2r 1 0，无论q选什么都无影响 0, 若r 1 / 2 2r 1 0, q越小越好
博弈论第三章混合策略纳什均衡
第二节混合策略纳什均衡的求解方法
二、反应对应法
例：扑克牌对色游戏(p77)
先看甲的最优反应，记为r*=R(q)：观察π甲(p甲, p乙)= 2r(1-2q)+(2q-1)
若q 1 / 2 1 2q 0, r越小越好 0, r* R( q) [0,1], 若q 1 / 2 1 2q 0，无论r选什么都无影响 1, 若q 1 / 2 1 2q 0, r越大越好
解：Max π甲(p甲, p乙) r Max π乙(p甲, p乙) q
f.o.c. 2r-1=0
r*=1/2
混合策略纳什均衡是甲在策略空间{红，黑}上以概率分布 p甲*= （1/2，1/2）进行选择，乙也在策略空间{红，黑}上以概率p乙*= （1/2，1/2）进行选择
博弈论第三章混合策略纳什均衡
第二节混合策略纳什均衡的求解方法
二、支付最大化法
例：扑克牌对色游戏(p77)
无纯策略NE 给定混合策略p甲=(r,1-r); p乙=(q,1-q) π甲(p甲, p乙)=r[q(-1)+(1-q) 1]+ (1-r)[q1+(1-q)(-1)] = 2r(1-2q)+(2q-1) π乙(p甲, p乙)=q [r1+(1-r)(-1)]+ (1-q)[r(-1)+(1-r)1] =2q(2r-1)-(2r-1) f.o.c. 1-2q=0 q*=1/2

混合策略纳什均衡

混合策略纳什均衡

03 混合策略纳什均衡的证明方法
反证法
总结词
通过假设不成立来证明均衡的存在。
详细描述
反证法是一种常用的证明方法，它首先假设与结论相反的命题成立，然后通过逻辑推理和数学推导，得出矛盾的结论，从而证明原命题的正确性。在证明混合策略纳什均衡的存在时，反证法可以用来证明当其他玩家采取了最优策略时，某个玩家采取混合策略能够达到最优结果。
唯一性意味着在给定对手策略的情况下，每个参与者都只有一个最优反应，从而避免了复杂的策略互动和不确定性。
存在性
混合策略纳什均衡的存在性是指在某些博弈中，至少存在一个策略组合，使得每个参与者在给定其他参与者策略的情况下，采用混合策略是最优的。
存在性通常通过数学证明和计算机搜索等方法来证明，但并不是所有博弈都有混合策略纳什均衡。
混合策略纳什均衡
目录
CONTENTS
• 混合策略纳什均衡的定义 • 混合策略纳什均衡的特性 • 混合策略纳什均衡的证明方法 • 混合策略纳什均衡的应用场景 • 混合策略纳什均衡的局限性 • 混合策略纳什均衡的发展前景
01 混合策略纳什均衡的定义
定义
混合策略纳什均衡是一种博弈论中的均衡概念，它描述了在给定对手策略的情况下，参与者如何选择最优策略以最大化自己的期望收益。
代数法是一种通过数学符号和公式进行推理和证明的方法。在证明混合策略纳什均衡的存在时，代数法可以用来推导和证明纳什均衡的条件和性质，利用代数性质和技巧来证明均衡的存在。
04 混合策略纳什均衡的应用场景
经济学
竞争策略分析
混合策略纳什均衡在经济学中被用于分析竞争策略，特别是在不完全竞争市场和寡头垄断市场中。通过混合策略纳什均衡，可以研究企业在不确定环境下的最优反应，以及企业如何通过调整其策略来应对竞争对手的行为。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

猎人2
兔
0， 3 3， 3
猎鹿博弈
聚点均衡
• 聚点均衡是利用博弈设定以外的信息和依据选择的均衡。文化、习惯、心理或者其他各种特征都可能是聚点均衡的依据。
§扑克牌对色游戏
• AB玩扑克牌对色游戏，每人都有红黑两张扑克牌，约定如果出牌颜色一样，A输B赢，如果出牌颜色不一样，则A赢B输。
• 找到这个博弈的纳什均衡。
红 A
黑
红 -1， 1 1， -1
B 黑
1， -1 -1， 1
例扑克牌对色游戏
B
红
黑
A
红黑
-1 , 1 1 , -1
1 , -1 -1 , 1
(2 1) 3
uL 2 1 0
0.5
max uG [3 (1 )] (1 )( )
max uL [2 (1 )] 3(1 )
则 0.5, 0.2
解二: 支付等值法
• 政府选择救济策略
• 政府选择不救济策略
1
0
期望效用
期望效用
uG 1, 3 11 uG 0, 1 01
则政府的期望效用函数为：
uG 3 11 1 01
5 1
解一: 支付最大化
uG 3 11 1 01
5 1
对上述效用函数求微分，得到政府最优化的一阶条件为：
uG 5 1 0 0.2
就是说，从政府的最优化条件找到流浪汉混合策略——流浪汉以0.2的概率选择寻找工作，0 .8 的概率选择游闲。
讨论
• 尽管混合策略不像纯策略那样直观，但它确实是一些博弈中参与人的合理行为方式。扑克比赛、垒球比赛、划拳就是这样的例子，在这一类博弈中，参与比赛的总是随机行动以使自己的行为不被对方所预测。
• 经济学上的监督博弈也是这样一个例子。如税收检查、质量检查、惩治犯罪、雇主监督雇员等都可以看成猜谜博弈。
流浪汉
找工作
游荡
政府救济不救济
3,2 -1 , 1
-1 , 3 0,0
假设政府救济的概率为；流浪汉找工作的概率为；
则
u1 (5 1) ,u2 [1 2 ] 3
0, 当r 1/ 5
[0,1],当r 1/ 5
1, 当r 1/ 5
1, 当 1/ 2 r [0,1],当 1/ 2
S
Sp
0
p*
S
S
D
激励的悖论
• 用支付最大化值求出：
q* A VA
V11
A
当加大对小偷的处罚，守卫偷懒的概率会增加 A q*
p*
S
S
D
1 1 D
S
当加大对守卫的处罚，小偷偷东西的概率会减小 S p*
激励的悖论
• 从道理上讲,小偷偷东西是一种犯罪行为,而守恒不负责仅是失职行为;从性质上讲,犯罪的性质比失职的性质严重得多,理所当然应该加重对小偷的处罚,但从上面的分析可看出,为了减少偷窃的现象,反而是加重对守卫处罚效果更好. 这就是激励的悖论!
激励的悖论
• 小偷与守卫博弈
小偷
偷p 不偷1-p
守卫
睡q
小睡1-q
V，-D 0，S
-A，0 0，0
激励的悖论
• 用支付最大化值求出：
U1 Vpq Ap(1 q) p(Vq A Aq)
U1 '
Vq
A
Aq
0
q*
V
A
A
U2 Dpq S(1 p)q q( pD S Sp)
U2'
pD
解一:支付最大化
政府救济不救济
流浪汉
找工作
游荡
3,2 -1 , 1
-1 , 3 0,0
假设政府救济的概率为；流浪汉找工作的概率为；
则流浪汉的期望效用函数为：
uL 2 11 1 3 01
(2 1) 3
解一:支付最大化
• 流浪汉的期望效用函数为：
uL 2 11 1 3 01
国家2
战争
和平
-5， -5 -10， 8
8， -10 10， 10
战争与和平博弈
风险优势标准
若考虑到或者说是顾忌到其他博弈方可能发生错误的原因，帕累托上策均衡并不一定是最优选择，还需要比较风险优势。下面就是两个例子。
博弈方2
博弈U 方 1D
L 9， 9 8， 0
R 0， 8 7， 7
风险上策均衡（D，R）
夫妻之争博弈的混合策略纳什均衡
策略
得益
博弈方1 （0.75，0.25） 0.67
博弈方2 （1/3，2/3） 0.75
§ 多重纳什均衡及其甄别
• 帕累托优势标准 • 风险优势标准 • 帕累托优势标准和风险优势标准 • 聚点均衡 • 相关均衡 • 抗共谋均衡
帕累托优势标准
• 看看这个博弈有几个纯策略纳什均衡?
EUA p1X 1 p2 X 2 ... pnXn
政府和流浪汉的博弈
• 政府想帮助流浪汉，但前提是后者必须试图寻找工
作，否则，不予帮助；而流浪汉若知道政府采用救
济策略的话，他就不会寻找工作。他们只有在得不
到政府救济时才会寻找工作。他们获得的支付如图
所示：
流浪汉
寻找工作
游闲
救济（3，2）（-1，3）
纳税人
逃税
不逃税
税收机关检查 A-C+F,-A-F A-C, -A
不检查 0,0
A,-A
课后作业：以“监督博弈”为关键词在学术期刊网上查找文献，浏览至少三篇论文并精读一篇，写下笔记。
夫妻之争的混合策略纳什均衡
看看这个博弈有几个均衡?
时装妻子
足球
时装
丈夫
足球
2， 1
0， 0
0， 0
1， 3
夫妻之争
1q
激励的悖论
• 一小偷欲偷有守卫看守的仓库，若小偷去偷时守卫睡觉（不负责），则小偷偷窃成功（令其价值是V），若守卫没有睡觉（尽职尽责），则小偷会被抓住坐牢（设其效用为-A）；再假设守卫睡觉而未被偷的效用为S，守卫睡觉而被偷则被解雇，其效用为-D。写出得益矩阵，并分析如果想减少小偷偷东西的现象发生,如何做效果更好?
3,2 -1 , 1
-1 , 3 0,0
uL 1, 1 3 uL 0,
0.5政府和流ຫໍສະໝຸດ 汉的博弈• 如果政府救济的概率小于0.5； • 则流浪汉的最优选择是寻找工作； • 如果政府救济的概率大于0.5； • 则流浪汉的最优选择是游闲等待救济。 • 如果政府救济的概率正好等于0.5； • 流浪汉的选择无差异。
1、假定政府采用混合策略：
G ,1 即政府以的概率选择救济，1 的概率选择不救济。
2、流浪汉的混合策略为：
L ,1 即流浪汉以的概率选择寻找工作，1 的概率选择游闲。
解一: 支付最大化
政府救济不救济
流浪汉
找工作
游荡
3,2 -1 , 1
-1 , 3 0,0
假设政府救济的概率为；流浪汉找工作的概率为；
因此B的最佳反应函数为
p
1
1, 当p 1/ 2
q [0,1],当p 1/ 2
1/2
0, 当p 1/ 2
0
1q
p 1
(P*, q*) (1/ 2,1/ 2)
1/2
纳什均衡是：A和B出红牌还
是出黑牌的概率都是1/2.
0
1/2 1 q
反应函数法
练习1：利用反应函数法找出政府与流浪汉博弈的纳什均衡
国家2
战争
和平
国战争家 1 和平
-5， -5 -10， 8
8， -10 10， 10
战争与和平博弈
帕累托优势标准
这个博弈中有两个纯策略
纳什均衡，（战争，战争）
和（和平，和平），显然后者帕累托优于前者，所以，（和平，和平）是本
国战争家 1 和平
博弈的一个按帕累托优势
标准筛选出来的纳什均衡。
第二章完全信息静态信息博弈-纳什均衡
一博弈的基本概念及战略表述二占优战略均衡三重复剔除的占优均衡四纳什均衡五混合战略纳什均衡六纳什均衡存在性及相关讨论
五混合策略纳什均衡
• 混合策略与期望支付 • 计算混合策略纳什均衡的三种方法 • 支付最大值法 • 支付等值法 • 反应函数法 • 多重纳什均衡及其甄别 • 混合博弈在现实经济中的运用案例
五混合策略纳什均衡
• 纯策略(pure strategies)：如果一个策略规定参与人在一个给定的信息情况下只选择一种特定的行动。
• 混合策略(mixed strategies)：如果一个策略规定参与人在给定的信息情况下，以某种概率分布随机地选择不同的行动。
• 在静态博弈里，纯策略等价于特定的行动，混合策略是不同行动之间的随机选择。
4 1
如果一个混合策略是流浪汉的最优选择，那一定意味着政府在救济与不救济之间是无差异的，即：
uG 1, 4 1 uG 0,
0.2
• 解二: 支付等值法
如果一个混合策略是政府的最优选择，那一定意
味着流浪汉在寻找工作与游闲之间是无差异的，
即：
流浪汉
找工作
游荡
政府救济不救济
• 在社会经济现象中,存在着许多激励的悖论的现象,如为了减少考试作弊的现象,应加大对监考人员失职的处罚其效果更好等等.
• 激励的悖论对我们制定政策和规章制度时带来了有益的思考.
练习:混合策略的纳什均衡
下面的博弈是否存在纯策略的纳什均衡,如果没有采用混合
策略纳什均衡分析。试用支付最大化法和支付等值法两种
0, 当 1/ 2

相关文档

最新文档