混合策略与随机行动概论

合集下载

混合策略纳什均衡

02
混合策略纳什均衡的基本理论
纳什均衡的定义与性质
纳什均衡的定义
在博弈中，如果每个玩家都采取自己的最优策略，那么整个博弈会达到一种均衡状态，即所有参与者的利益达到最大化。
纳什均衡的性质
纳什均衡是一种自我稳定的状态，即使受到外部干扰，也会迅速恢复到原始状态。此外，纳什均衡也是最优的，因为它使得每个参与者的利益都达到最大化。
其次，现有的研究往往只关注特定的博弈模型，对于更一般化的博弈模型，尤其是对于连续型博弈和多阶段博弈的研究还比较缺乏。
首先，混合策略纳什均衡的概念和性质仍需进一步深化和研究。例如，对于非完全信息博弈，如何准确地刻画混合策略纳什均衡点的数量和分布等问题仍需探索。
最后，现有的研究主要集中在理论层面，对于如何将混合策略纳什均衡应用到实际问题中，如何设计和制定有效的混合策略等问题还需要进一步探讨。
未来研究方向与挑战
未来研究可以进一步拓展混合策略纳什均衡的应用领域，例如在经济学、政治学、社会学等领域的应用。
另外，针对现有的研究不足，未来研究可以深入探索混合策略纳什均衡的性质和计算方法，以及如何设计和制定有效的混合策略等问题。
此外，未来的研究还可以进一步拓展混合策略纳什均衡的理论框架，例如在多阶段博弈、不完全信息博弈、非线性博弈等领域的研究。
略纳什均衡来分析。
在生物学领域的应用
在生物学中，混合策略纳什均衡可以用来研究生物种群的进化稳定性和生态平衡。
在生态系统中，生物种群可以通过选择不同的繁殖、迁徙、捕食等策略来适应环境变化，这种博弈关系可以通过混合策略纳什均衡来分析。
在其他领域的应用
在社会学中，混合策略纳什均衡可以用来研究社会群体中的合作与竞争关系。

09 第九讲混合战略博弈

谢谢大家！
依《三国演义》的作者罗贯中的逻辑，孔明总是比曹操计高一筹，按博弈论的术语来说，就是孔明的理性程度要比曹操高上一阶。孔明也知道“曹操知道孔明的打算”，于是命令关羽在点火的华容道上等着曹操。《三国演义》中的这个故事很可能是作者编造的，因为在《三国志》中并无这一情节。
在这里，罗贯中假设了曹操在智力上比孔明差一些，才有华容道上被关羽抓住，要不是关羽旧情难忘，曹操就死无葬身之地了。
田忌的谋士孙膑了解了田忌的困境后，就打听到这样一个消息：尽管齐威王的上、中、下三匹马都要比田忌的对应上、中、下三匹马好，但碰巧的是田忌的上马可胜齐威王的中马，田忌的中马可胜齐威王的下马。于是，孙膑为田忌献计：下一次比赛中第一局时田忌出下马对齐威王的上马输一局，第二局田忌出上马对齐威王的中马，第三局田忌出中马对齐威王的下马，这样可连赢两局，最后净胜一千两黄金。田忌依计而行，果真赢回一千斤两黄金。
当曹操冲破赵云、张飞的阻截后，来到华容道前，看见华容道上静悄悄的，但有烟火萦绕。
曹操大笑道：“孔明以为我会上他的当，故意叫人在华容道上点火让我走另一条道，而他却伏兵于这条道上好逮住我呢！我偏不上他的当！” 于是，曹操令大军径直上华容道上而去，结果与关羽大军撞个正着。
曹操为何进了孔明的圈套呢？这里的道理是这样的：孔明知道曹操是聪明人，而聪明人见华容道上有烟火会认为华容道上有伏兵，于是会避开华容道而走另一条路。如果孔明令关羽在另一条路等着，曹操就被逮住了。但是，曹操不仅聪明，而且还聪明过人，他也知道孔明的如此盘算来诱他上钩，他偏不上当，知道点火的华容道上无人，孔明的队伍在另一条道上呢！于是他会选择走华容道。
当时，第一批拦截大军是赵云率领的，第二批拦截大军是张飞带队的，第三批才是关羽率部伏击。由于曹军兵多将广，前二批伏击军不能逮住曹操，只是抢劫一些军械马匹之类。

第二讲混合策略与连续策略

贫民的期望支付
π p = θ a [2γ w + 3(1 − γ w )] + (1 − θ a )[1γ w + 0(1 − γ w )] = 3θ a − γ w (2θ a − 1)
求一阶条件，得
0= dπ p dγ w = −(2θ a − 1) ⇒ θ a = 0.5
在该博弈中，政府以50%的概率选择救济，贫民以 20%的概率选择找工作，构成混合策略纳什均衡。
福利博弈贫民工作救济政府不救济
（-1，1）（0，0）（3，2）
游手好闲
（-1，3）
该博弈是否存在优势策略均衡？是否存在纳什均衡？
福利博弈贫民工作救济政府不救济
（-1，1）（0，0）（3，2）
游手好闲
（-1，3）
如果政府选择救济的概率是 θa ，而贫民选择工作的概率是 γ w，则政府的期望支付是
π(避让) = π(坚持)
π (避让) = π (坚持) θ ⋅ 0 + (1−θ ) ⋅1=θ ⋅ (−3) + (1−θ ) ⋅ 2 ⇒θ =0.25
请计算A、B两个人都安然无恙的概率。
市民责任博弈（Kitty谋杀案）
B 袖手旁观袖手旁观 A 报警
（7，10）（7，7）（0，0）
报警
πg = θa [3γ w + (−1)(1−γ w )] + (1−θa )[−1γ w + 0(1− γ w )] = θa [5γ w −1] −γ w
求一阶条件，得
0= dπ g dθ a = 5γ w − 1 ⇒ γ w = 0.2
上述结论意味着： 1，对政府来说存在一个最优的混合策略； 2，若贫民选择工作的概率大于20%，则政府总是选择救济；若小于20%，则政府总是选择不救济； 3，若对政府而言混合策略是最优的，则贫民选择工作的概率恰好为20%。

混合策略

第一节混合策略与期望支付
二、期望支付（一）分析 1.概率（偷，睡）的概率：pq （偷，不睡）的概率：p(1-q) （不偷，睡）的概率：(1-p)q （不偷，不睡）的概率：(1-p)(1-q)
第一节混合策略与期望支付
二、期望支付（一）分析 2.期望支付 U小偷=8pq+（-2）p(1-q)+0(1-p)q+0(1p)(1-q)=2p(5q-1) U守卫= （-2） pq+0p(1-q)+8(1p)q+0(1-p)(1-q)=2q(4-5p)
小偷与守卫博弈
无纳什均衡，如何分析？
第一节混合策略与期望支付
一、混合策略（二）混合策略 1.表述参与人按照一定概率，随机从策略组合中选择一种策略作为实际行动随机行动的目的：使自己的行为不被对手预测
混合策略
小偷的混合策略以p的概率偷，（p，1-p）守卫的混合策略以q的概率睡（q，1-q）
第一节混合策略与期望支付
一、混合策略（二）混合策略 2.相对概念：纯策略每个参与人的非随机性选择纯粹行动计划，p=100%,1-p=0
第一节混合策略与期望支付
一、混合策略（二）混合策略 3.数学刻画给定博弈G=｛S1，…,Sn;u1,…,un｝以及参与人i的纯策略Si= ｛si1,…,sik｝概率分布pi=（pi1,…,pik）为混合策略其中：0≤ pik ≤1，∑ pik=1， pik=p（ sik ）混合策略组合p=（p1,…,pi,…pn）
两情若是久长时
足球 John 芭蕾 Candy 足球芭蕾
2，1 0，0
-1，-1
1，2
研究方法：支付等价法

管理经济学10博弈论详解

定义1: 给定其它局中人的策略s，局中人i的最优反应记为s，是指能给他带来最大收益的策略，即
ui (s , si ) ui (s , si ) s s
* i ' i ' i
* i
当每个局中人都选择了自己的最优反应策略，并且这些最优反应形成一个策略组合，便形成了纳什均衡。
博弈论和对策行为
设局中人a使用混合策略x局中人b使用最优混合策略y这时局中人b的期望支付若局中人b使用某种混合策略而局中人a使用最优混合策略这时局中人a的收益的期望值为博弈论和对策行为混合策略和重复性博弈这说明当局中人a使用最优策略时不管局中人b使用何种策略他的收入的期望值不变从而保持有利的竞争地位
10 讲
博奕论和对策行为
博弈论和对策行为
策略型博弈的实例和解(性别战)
例2. 性别战(battle of the sexes)
一男一女恋爱，有些业余活动要安排，或者去看足球比赛，或者去看芭蕾舞演出。男的偏好足球，女的则更喜欢芭蕾舞，但他们都宁愿在一起，不愿分开。下表给出收益矩阵：女足球芭蕾足球 2，1 0，0 男芭蕾 0，0 1，2
纳什均衡
定义2: 一个策略组合s*=(s1*,s2*,…,sn*)被称为纳什均衡是指，对于所有的 i,
ui (s , s ) ui (s , s ) s Si
* i * i ' i * i ' i
纳什均衡的思想就是，博奕的理性结局是这样一种策略组合，其中每个局中人选择的策略都已是对其它局中人所选策略的最优反应，所以，谁也没有积极性去选择其它策略。因为每一个局中人均不能因为单方面改变自己的策略而获利，于是谁也没有兴趣主动打破这种均衡。

混合策略纳什均衡

03 混合策略纳什均衡的证明方法
反证法
总结词
通过假设不成立来证明均衡的存在。
详细描述
反证法是一种常用的证明方法，它首先假设与结论相反的命题成立，然后通过逻辑推理和数学推导，得出矛盾的结论，从而证明原命题的正确性。在证明混合策略纳什均衡的存在时，反证法可以用来证明当其他玩家采取了最优策略时，某个玩家采取混合策略能够达到最优结果。
唯一性意味着在给定对手策略的情况下，每个参与者都只有一个最优反应，从而避免了复杂的策略互动和不确定性。
存在性
混合策略纳什均衡的存在性是指在某些博弈中，至少存在一个策略组合，使得每个参与者在给定其他参与者策略的情况下，采用混合策略是最优的。
存在性通常通过数学证明和计算机搜索等方法来证明，但并不是所有博弈都有混合策略纳什均衡。
混合策略纳什均衡
目录
CONTENTS
• 混合策略纳什均衡的定义 • 混合策略纳什均衡的特性 • 混合策略纳什均衡的证明方法 • 混合策略纳什均衡的应用场景 • 混合策略纳什均衡的局限性 • 混合策略纳什均衡的发展前景
01 混合策略纳什均衡的定义
定义
混合策略纳什均衡是一种博弈论中的均衡概念，它描述了在给定对手策略的情况下，参与者如何选择最优策略以最大化自己的期望收益。
代数法是一种通过数学符号和公式进行推理和证明的方法。在证明混合策略纳什均衡的存在时，代数法可以用来推导和证明纳什均衡的条件和性质，利用代数性质和技巧来证明均衡的存在。
04 混合策略纳什均衡的应用场景
经济学
竞争策略分析
混合策略纳什均衡在经济学中被用于分析竞争策略，特别是在不完全竞争市场和寡头垄断市场中。通过混合策略纳什均衡，可以研究企业在不确定环境下的最优反应，以及企业如何通过调整其策略来应对竞争对手的行为。

博弈论2：混合策略

案例：纳税人与税官的博弈，利益函数：案例：纳税人与税官的博弈，利益函数：
1.税务机关不查账，纳税人不逃税：税务机关得到税务机关不查账，纳税人不逃税：税务机关不查账税金a, 纳税人纳税a：（：（a,－）税金纳税人纳税：（－a） 2.税务机关查账，纳税人不逃税：税务机关得税，税务机关查账，税务机关查账纳税人不逃税：税务机关得税a，查账付出成本为C，纳税人纳税a －－查账付出成本为，纳税人纳税 :(a－C,－a) 3.税务机关不查账，纳税人逃税：税务机关未得税税务机关不查账，税务机关不查账纳税人逃税：纳税人未缴税金:( 金，纳税人未缴税金 0, 0) 4.税务机关查账，纳税人逃税：纳税人罚款，税务税务机关查账，税务机关查账纳税人逃税：纳税人罚款F，机关得到F，付出成本C，故利益函数分别为:( 机关得到，付出成本，故利益函数分别为 a ，－a－）＋F－C，－－F）－，－
2. 税务机关混合策略（查账率）分析税务机关混合策略（查账率）
• 税务机关的策略空间：查账与不查账 • 要取得最大利益，不能采取纯策略，而是有时查账，有时不查账，即采取查账率为r，此数即是我们要求解的税务机关的博弈策略。 • 这个最大利益必须通过分析纳税人的利益函数才能得到阵）中所采取利益最大化策略 • 所以，税务机关必须通过查账率对纳税人的行为的影响，来决定其策略：查账率
混合策略的普遍意义
上述方法可以被用于很多管理事务中，如：警察与小偷；贪官与检察官不确定性的价格战制造污染的企业与环境部门违纪职工与领导，等等，等等 • 加大惩罚系数，减少平均检查成本，是减少违加大惩罚系数，减少平均检查成本，法现象发生概率的基本途径，法现象发生概率的基本途径，从而真正实现 “管理的经济”。管理的经济”

4.混合战略纳什均衡

vJ (1,0; ,1 ) 0.9 0.2(1 )
vJ (0,1; ,1 ) 0.3 0.6(1 )
由
vJ (0,1; ,1 ) vJ (1,0; ,1 )
得：同理得： 0.4 0.3
问题：
例4、监督博弈——税收
监督博弈是猜谜博弈的变种，它概括了诸如税收检查、质量检查、惩罚犯罪、顾主监督雇员等；这里以税收为例进纳税人行讨论。支付矩阵逃税不逃税参与人纯战略税检查 a-C+F , -a-F a-C , -a 税收机关检查，不检查收机不检查 0, 0 a , -a 纳税人逃税，不逃税关右表概括了对应不同纯战略组合的支付矩阵，其中,a是应纳税款；C是检查成本；F是罚款，假定C<a+F。用代表税收机关检查的概率，代表纳税人逃税的概率。给定，税收机关选择检查（ =1）和不检查（ =0）的期望收益分别为：………….. 给定，………… a C * , * 混合战略纳什均衡为：
aF aF
税收讨论：
一、监督博弈的纳什均衡与应纳税款a、对逃税的惩罚F、以及检查成本C有关。二、逃税者可制造虚假逃税信息，浪费查税人的资源。类似的有战争中发射真假弹的问题。三、有的博弈只有混合战略纳什均衡，但有的既有纯战略又有混合战略纳什均衡，如性别战博弈。四、奇数定理：几乎所有有限博弈都有有限奇数个纳什均衡。
vG ( G , L ) [3 (1)(1 )] (1 )[ 0(1 )]
vG 效用最大化条件： 5 1 0
(5 1)
同理，流浪汉的期望效用函数： vL ( G , L ) 3 2 效用最大化条件为： vL 1 2 0 * 故： * 0.5 0.2

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

70，30
得益：进球得分的百分比。根据1995-2000年间意大利、西班牙和英国最高联盟的数据
严格竞争博弈
就一次游戏而言，猜测对方的策略，保密自己的策略。在多次反复游戏中，避免任何的倾向性和规律性。
路漫漫其修远兮, 吾将上下而求索
பைடு நூலகம்
零和博弈
实验
办法是将行动随机化。
混合策略
混合策略：
参与人在每一个给定信息的情况下以某种概率分布随机地选择不同的行动。
例如：乒乓球员以60％的概率选择正手发球，40％的概率选择反手发球。
什么是纯策略？
路漫漫其修远兮, 吾将上下而求索
混合策略
如果你是踢球人,这两个纯策略中你更喜欢哪一种?（ 70％）
你能不能做得更好? (1)以50:50（抛硬币）的比例随机地选择左边或右边。
如果守门员选择左边，你混合策略成功的概率： ½*58%+ ½* 93%= 75.5% 如果守门员选择右边，你混合策略成功的概率： ½*95%+ ½* 70%= 82.5%
路漫漫其修远兮, 吾将上下而求索
混合策略
法则
在纯冲突博弈（零和博弈）中，如果让你的对手事先看清楚你的真实选择对你不利，那么你可以通过随机选择自己备选的纯策略而获益。你的混合比例应该是这样的：对手采取任何特定的备选纯策略，都不可能利用你的选择，即，当你以混合策略对付他的混合策略中任一纯策略时，你得到的平均赢利都相等。
• 参与人：n个 • 每个参与人的战略集：{打电话，不打电话} • 效用：没有任何人打，所有人0支付；
打，v-c；不打，但其他人至少有一个人打，v
路漫漫其修远兮, 吾将上下而求索
混合策略—案例
– 纯战略NE
• 当只有两个参与人的时候（公共产品提供的斗鸡博弈）——两个NE
• n个人的时候：假设有m个人提供，m>1 or m=1 n个NE
路漫漫其修远兮, 吾将上下而求索
混合策略—案例
• 混合战略NE • 随着人数n的增加，p减小，即人越多，每
个人选择报案的概率就会越小，如果n＝1，则p＝1 • 社会心理学与博弈分析
路漫漫其修远兮, 吾将上下而求索
混合策略—案例
小孩玩的游戏“石头，剪子，布”，也是一种博弈。但是，这个博弈有一种有趣的特征，即给定一方的任何选择，另一方都有制胜对方的战略，所以，给定一方任何一个战略，对方都有制胜这个战略的战略，因而这个战略不是最优的。任何“纯战略”都不是最优的，纯战略是“石头，剪子，布”中的任何一个。
如果守门员选择左边，你混合策略成功的概率： 0.383*58%+ 0.617* 93%＝79.6％如果守门员选择右边，你混合策略成功的概率： 0.383*95%+ 0.617 * 70% ＝79.6％
路漫漫其修远兮, 吾将上下而求索
混合策略
那么守门员的策略怎样？
守门员的最佳策略是使踢球者选择左边和选择右边的成功率相等的策略。守门员应当分别以41.7％和58.3％的比例选择自己的左边和右边，使踢球者成功的概率为79.6%. 混合策略纳什均衡?
路漫漫其修远兮, 吾将上下而求索
混合策略
你的连续更优的混合策略比例就是如何使自己在守门员选择左边时和选择右边的成功概率差距缩小。
58％－－70％－－12％
75.5%－－ 82.5%－－7.3％ 79% －－80%－－1％ x－－y－－0
路漫漫其修远兮, 吾将上下而求索
混合策略
不管守门员选择他的左边还是右边，你的最佳混合比例都会使你得到相等的成功率 (3)以x:1－x的比例随机地选择左边或右边。
路漫漫其修远兮, 吾将上下而求索
混合策略
50：50是你最佳混合策略吗?
(2)以40:60（在你的口袋里放一本书，如果页眉最后一位数是1到4选左，0到5则选右）的比例随机地选择左边或右边。
如果守门员选择左边，你混合策略成功的概率： 0.4*58%+ 0.6* 93%= 79% 如果守门员选择右边，你混合策略成功的概率： 0.4*95%+ 0.6* 70%= 80%
混合策略与随机行动概论
路漫漫其修远兮, 吾将上下而求索
2020年4月2日星期四
赛场
路漫漫其修远兮, 吾将上下而求索
混合策略提出
点球射门攻方的策略是：攻左边，或攻右边守方的策略是：守左边，或守右边（以守方的方向为准）
守
左边右边
路漫漫其修远兮, 吾将上下而求索
左边 58，42
95，5
攻
右边 93，7
• 报案（reporting a crime）
– n个人目睹一桩罪行，每个人都希望报警，但是都倾向于其他人打电话。特别的，假定能从报警中得到v单位的收益，而打电话的人需要付出c单位的成本，v>c>0。分析这个问题的纯战略NE和混合战略NE。
路漫漫其修远兮, 吾将上下而求索
混合策略—案例
– 分析：
如果守门员选择左边，你混合策略成功的概率： x*58%+ （1－x）* 93% 如果守门员选择右边，你混合策略成功的概率： x*95%+ （1－x） * 70% 两者相等，求得选x＝0.383
路漫漫其修远兮, 吾将上下而求索
混合策略
不管守门员选择他的左边还是右边，你的最佳混合比例都会使你得到相等的成功率 (4)以0.383:0.617的比例随机地选择左边或右边。
路漫漫其修远兮, 吾将上下而求索
但是，我们知道，玩这个游戏是总是以对方不易猜出的随机方式出招。事实上，可以通过数学证明，当双方都以每个战略按1/3的概率出招时，达成一种双方都不愿改变这种概率分布的局面。这被称为“混合战略纳什均衡”，而这种以随机方式选择纯战略的博弈被称为“混合战略博弈”。
路漫漫其修远兮, 吾将上下而求索
实验显示： “陷入无意识但仍可预测的模式” 例如：官僚作风－－连续出“布”
雪崩－－－连续出石头排除策略－－省略一个
随机：秘密的，足够复杂以至难以让人破解的规则
路漫漫其修远兮, 吾将上下而求索
怎样随机行动？
实验抛硬币
抛硬币翻出正面之后再抛一次，这时出正面的可能性与抛出反面的可能性相等。
无规律的随机行动（点名4/18=22%,不点名78％）。例如：一个秘密的、足够复杂以致让人难以破解的规则。举例：秘密
路漫漫其修远兮, 吾将上下而求索
混合策略—案例

混合策略与随机行动概论

混合策略纳什均衡

09 第九讲 混合战略博弈

第二讲 混合策略与连续策略

混合策略

管理经济学10博弈论详解

混合策略纳什均衡

博弈论2：混合策略

4.混合战略纳什均衡

09 第九讲混合战略博弈

第二讲混合策略与连续策略