策略式博弈:混合策略

合集下载

博弈论-混合策略纳什均衡

博弈论-混合策略纳什均衡
,以达到均衡状态。
政治学的案例分析
总结词:国际关系
详细描述:在国际关系中,混合策略纳什均衡可以用来解释 国家之间的竞争和合作。例如,两个国家可能会以一定的概 率选择不同的外交政策,例如结盟、中立或对抗,以达到各 自的利益最大化。
生物学的案例分析
总结词
捕食者-猎物博弈
详细描述
在生物学中,混合策略纳什均衡可以用来解释捕食者与猎物之间的博弈。例如,捕食者 可能会采用追逐和放弃两种策略来捕猎猎物,而猎物也可能会采用逃跑和装死两种策略 来避免被捕食。最终,捕食者和猎物都以一定的概率随机选择不同的策略,以达到均衡
非合作博弈论
研究个体如何在不知道其 他个体如何行动的情况下 做出最优决策。
博弈论的基本概念
参与者
参与博弈的决策主体, 可以是个人、组织或国
家。
行动
参与者根据给定的信息 所做出的决策。
信息
参与者在进行决策时所 拥有的数据、情报或知
识。
策略
参与者为达到最优结果 而采取的一系列行动的
方案。
博弈论的应用场景
状态。
生物学的案例分析
总结词:繁殖竞争
VS
详细描述:在生物种群中,不同个体 之间会存在繁殖竞争。为了最大化自 己的遗传贡献,个体可能会采用不同 的交配策略,例如追求高繁殖成功率 的策略或避免过度竞争的策略。混合 策略纳什均衡可以用来描述这种竞争 状态下的交配行为。
THANKS FOR WATCHING
繁殖博弈
在繁殖博弈中,生物个体通过选择不同的繁殖和竞争策略来繁衍后代。混合策略纳什均衡可以用来分 析繁殖过程的均衡结果,解释生物多样性的形成机制。
05 混合策略纳什均衡的案例 分析
经济学的案例分析

F-博弈论专题-4-1混合纳什均衡

F-博弈论专题-4-1混合纳什均衡

二、混合战略Nash均衡
问题: 在“猜硬币”游戏中,我们往往会以50%
的概率选择正面(O),以50%的概率选择反面(R), 即选择混合战略σ=(0.5,0.5)。那么有没有参与 人会偏离混合战略σi=(0.5,0.5)呢?
O 1
R
2
O
R
-1,1
1,-1
1,-1
-1,1
在“猜硬币”博弈中,当双方都选择混合战略
为准)

左边 右边
左边 -1,1 1,-1 攻
右边 1,-1 -1,1
例:石头、剪子、布
(3)石头、剪子、布
再看猎鹿博弈
风险与均衡
某种行动的概率
与期望收益:
猎鹿?猎兔? 如果猎兔的概率 Nhomakorabea猎 人鹿
是0.5时,均衡 1 兔子
是什么?0.6呢?
猎人2
鹿
兔子
5, 5 3, 0
0, 3 3, 3
猎鹿博弈 风险上策均衡(兔子,兔子)
社会福利博弈
流浪汉
政 府 救济
不救济
找工作 (3,2) (-1,1)
游荡 (-1,3) (0,0)
课堂测试:
求解猎人的混
合纳什均衡策
略。
即,选择两种策 略的期望收益
猎 人鹿
无差异的概率。 1 兔子
猎人2
鹿
兔子
5, 5 3, 0
0, 3 3, 3
猎鹿博弈 风险上策均衡(兔子,兔子)
察不能同时兼顾两个地方。商店价值2万元,
酒馆价值1万元。警察在这头时小偷会去另一
头行窃,但双方到底在哪边是不确定的。双方
的策略应是什么?
小偷
酒馆 商店
警察

博弈论混合策略纳什均衡名词解释

博弈论混合策略纳什均衡名词解释

博弈论混合策略纳什均衡名词解释
博弈论是研究决策者在相互影响下进行决策的数学理论。

在博
弈中,混合策略指的是玩家以一定的概率分布来选择纯策略的组合,而纳什均衡是指在博弈中,每个玩家都采取最优的策略,假设其他
玩家的策略不变。

混合策略纳什均衡则是指在博弈中,玩家以一定
的概率分布来选择策略的组合,并且不存在其他策略组合可以使得
任何一个玩家通过改变自己的策略来获得更好的收益。

换句话说,
混合策略纳什均衡是玩家在采取混合策略的情况下达到的稳定状态,使得任何玩家都无法通过改变自己的策略来获得更好的结果。

混合
策略纳什均衡在博弈论中具有重要的理论和实际意义,可以帮助分
析和预测玩家在博弈中的最优决策行为,以及博弈过程中可能出现
的稳定状态。

在实际应用中,混合策略纳什均衡被广泛运用于经济学、政治学、生物学等领域,对于理解和解决实际问题具有重要的
指导意义。

混合策略纳什均衡

混合策略纳什均衡

混合策略纳什均衡混合策略纳什均衡是博弈论中一个重要的概念。

纳什均衡是指在一个博弈中,每个参与者都选择了最优的策略,而且即使其他参与者知道其他参与者的策略,他们也无法从自己的策略中获得更大的利益。

而混合策略则是指参与者通过随机化选择不同策略的概率来达到最优策略。

本文将深入探讨混合策略纳什均衡的概念、特点以及计算方法。

首先,混合策略纳什均衡是指参与者通过一定概率选择不同策略的方式达到最优策略。

在混合策略中,每个参与者都拥有一个策略概率分布,表示他们在不同策略下的选择概率。

这样,在博弈中,每个参与者将根据其策略概率分布中的概率随机选择其中一种策略。

对于每个参与者而言,他们的目标是通过选择最优的策略概率分布来最大化自己的期望收益或最小化自己的期望损失。

其次,混合策略纳什均衡与纳什均衡相比具有以下特点。

首先,混合策略纳什均衡可以推翻完全信息博弈中的固定策略均衡结果。

在完全信息博弈中,参与者可以根据对其他参与者策略的了解来做出精确决策,因此均衡状态是唯一确定的。

而在混合策略博弈中,由于参与者通过概率选择不同策略,他们无法准确地预测其他参与者的策略,因此均衡状态不再是唯一确定的。

其次,混合策略纳什均衡可以引入不确定性,增加博弈的复杂性。

参与者无法准确地预测其他参与者的策略,因此他们需要通过一定的概率选择策略来平衡风险与收益。

最后,混合策略纳什均衡可以通过均衡态的共同选择来实现长期的稳定状态。

在混合策略纳什均衡中,参与者通过随机化选择策略,从而消除了其他参与者可以预测自己策略的可能性,增加了稳定性。

最后,计算混合策略纳什均衡的方法主要有以下两种。

一种是通过计算参与者的最优策略概率分布来确定混合策略纳什均衡。

这种方法主要基于线性规划技术,通过最大化或最小化参与者的期望收益或损失来确定最优的策略概率分布。

另一种方法是通过迭代算法来求解混合策略纳什均衡。

这种方法主要是通过反复更新参与者的策略概率分布,直到达到均衡状态。

03 混合策略纳什均衡

03 混合策略纳什均衡

小偷 偷
不偷
守卫

不睡
V,-D -P,0
0,S
0,0
猜硬币博弈
盖 正面 硬 币 反面 方
猜硬币方
正面
反面
-1, 1
1, -1
1, -1
-1, 1
(1)不存在前面定义的纳什均衡策略组合 (2)关键是不能让对方猜到自己策略
这类博弈很多,还有哪些例子呢?
二、混合策略纳什均衡
s11

s
1 2



s
1 m
0, 当q 1/ 2 p [0,1],当q 1/ 2
1, 当q 1/ 2
p 1
0 1/2
1q
同理
UB ( p, q) 2q(2 p 1) (2 p 1)
因此A的最佳反应函数为
p
1
1, 当p 1/ 2
q [0,1],当p 1/ 2
1/2
0, 当p 1/ 2
乙 甲
L
U 0,0
D -5,-5
R -5,-5
1,1
(U,L)、(D,R)纳什均衡 (D,R) Pareto 最优均衡
甲与乙组成一个联盟与丙博弈,联盟的一方互相协调,尽可能地 极大化联盟各个成员的赢利。
这时甲乙两人条件博弈的最优均衡仍是(D,R)
(D,R,B)有效地防止了甲乙二人可能的联盟,避免了 丙的损失。在防联盟均衡这一层意义上,(D,R,B)优 于(U,L,A)。
不逃税
税收机关 检查 A-C+F,-A-F A-C, -A
不检查 0,0
A,-A
课后作业:以“监督博弈”为关键词在学术期刊网上查找文献, 浏览至少三篇论文并精读一篇,写下笔记。

混合策略和混合策略纳什均衡

混合策略和混合策略纳什均衡

混合策略和混合策略纳什均衡这种博弈方以一定的概率分布在可选策略中随机选择的策略选择方式,被称为混合策略(Mixed Strategies )。

定义:在博弈{}1,,;,,n i n G S S u u =⋅⋅⋅⋅⋅⋅中,博弈方i 的策略空间为{}1,,i i ik S s s =⋅⋅⋅,则博弈方i 以概率分布{}1,,i i ik p p p =⋅⋅⋅随机在其k 个可选策略中选择的“策略”,称为一个“混合策略”,其中0≤p ij ≤1对j=1,…,k 都成立,且p i1+…+p ik =1。

1、混合策略和严格下策反复消去法(1)任何博弈方都不会采用任何严格下策,不管它们是纯策略还是混合策略;(2)严格下策反复消去法不会消去任何纳什均衡,包括纯策略纳什均衡和混合策略纳什均衡;(3)如果经过反复消去后留下的策略组合是唯一的,那么一定是纳什均衡。

练习2:求取“剪刀、石头、布”博弈的策略均衡解该博弈无纯策略解,但可求取混合策略解。

设甲选择三种策略的概率分别为q 1,q 2和1-q 1-q 2,乙选择其三种策略的概率分别为p 1,p 2和1-p 1-p 2给定乙的选择(概率p 一定),甲方选择三种策略的支付如下:π11=0×p 1+(-1)×p 2+1×(1-p 1-p 2)=1-p 1-2p 2 π12=1×p 1+0×p 2+(-1)×(1-p 1-p 2)=-1+2 p 1+ p 2 π13=(-1)×p 1+1×p 2+0×(1-p 1-p 2)=-p 1+p 2要存在混合策略均衡,则以上三种策略选择的支付应相等,即有:1-p 1-2p 2=-p 1+p 2 -1+2p 1+p 2=-p 1+p 2 所以,p 1+p 2=1/3同理,给定甲方的选择(概率q 一定),可有:π21=0×q 1+(-1)×q 2+1×(1-q 1-q 2)=1-q 1-2q 2 π22=1×q 1+0×q 2+(-1)×(1-q 1-q 2)=-1+2q 1+q 2 π23=(-1)×q 1+1×q 2+0×(1-q 1-q 2)=-q 1+q 2同样可求得:q1=q2=1/3因此,该博弈的混合策略均衡解为(1/3,1/3,1/3)练习3:试分析斗鸡博弈的混合策略均衡该博弈的两个纯策略解分别为:(2 ,0)和(0 ,2)还可求出其混合策略解。

第二章 战略式博弈 静态博弈与纳什均衡(续)

第二章 战略式博弈 静态博弈与纳什均衡(续)

混合策略和严格下策反复消去法
• 结论:严格下策反复消去法既不会消去纯策略N
ash均衡也不会消去混合策略Nash均衡。
• 对博弈方1和博弈方2,都没有 严格下策。但是博弈方1采用混合 策略(1/2,1/2,0)时,博弈方2 采用纯策略L时,博弈方1的得益: 博 U U1=1/2*3+1/2*0+0*1=3/2 弈 M 方 1 D
• When pj>c,只要pi<pj,i就获得(pi-c)(a-pi)的 利润,pm就是最值点,也是垄断价格。 所以当pj>pm, pm就是企业i的唯一最优反 应。当c<pj<=pm时,找不到最优的pi既要小 于pj,又不能等于pi(因为等于pi 意味着利 润少一半),因此最优的pi的不存在。 • 综上反应函数为:
1,3 3,1
a1 a2
2,1 1,2
混合战略Nash均衡求法2:无差异法
该博弈无纯策略纳什均衡,可用混合策略纳什均衡分 博弈方2 析 C D 博 策略 得益 弈 A 2, 3 5, 2 博弈方1 (0.8,0.2) 2.6 方 1
B
3, 1 1, 5
博弈方2 (0.8,0.2)
2.6
• 对简单的博弈问题,容易根据定义判断出Nash 均衡。但对于一些复杂的博弈问题,要找到Na sh均衡尤其是混合战略Nash均衡是非常不容易 的。 • 为了求解混合战略Nash均衡,必须了解在选择 混合战略的情况下,参与人如何剔除劣战略以 及参与人最优混合战略的特性。
B
3, 1 1, 5
博弈方2 (0.8,0.2)
2.6
例2:夫妻之争博弈
丈夫 时装q 妻 时装r 子 球1-r 2, 1 0, 0 足球1-q 0, 0 1, 3 夫妻之争

博弈论第三章混合策略纳什均衡.

博弈论第三章混合策略纳什均衡.

如果一个混合策略是流浪汉的最优选择,那一定意味 着政府在救济与不救济之间是无差异的,即:
vG 1,

4
1 vG 0,


0.2
• 解二:支付等值法
如果一个混合策略是政府的最优选择,那一定意 味着流浪汉在寻找工作与游闲之间是无差异的, 即:
vL 1, 1 3 vL 0, 0.5
游闲
(3,2) (-1,3)
(-1,1) (0,0)
政府和流浪汉的博弈
• 思考:政府会采用纯策略吗?流浪汉呢?这 个博弈有没有纯策略的纳什均衡? • ——跟你玩剪子石头布游戏一样,你会一直 采用纯策略吗? • 那么政府和流浪汉最有可能采用什么策略? • ——使自己的预期支付最大化。 • ——若能够猜的对方的策略,就可以采用针 对性的策略,使自己的支付增加。
L 2 1 0


0.5
解二:支付等值法
• 政府选择救济策略 • 政府选择不救济策略
0 1 期望效用 期望效用 vG 1, 3 11 vG 0, 1 01 4 1
EUA p1 X 1 p 2 X 2 ... pnXn
政府和流浪汉的博弈
• 政府想帮助流浪汉,但前提是后者必须试图寻 找工作,否则,不予帮助;而流浪汉若知道政 府采用救济策略的话,他就不会寻找工作。他 们只有在得不到政府救济时才会寻找工作。他 们获得的支付如图所示:
流浪汉
寻找工作
救济 政府 不救济
乙 红q 红p 甲 黑1-p -1, 1 1, -1 黑1-q 1, -1 -1, 1
§ 反应函数
• A的目标是期望支付越大越好。我们之所以把A的 期望支付整理成不含p的一项和含p的一项这个样 子,是因为A只能选择p而不能q,因此,A能通过 选择p来影响第一项,而不能直接影响第二项。 (1-2q)>0即q<1/2时,A把p选择等于1最好;当 (1-2q)<0即q>1/2时,A把p选择等于0最好;当 (1-2q)=0即q=1/2时,A可以在[0,1]之间随便 选择一个p。这样我们可以得到A的反应函数是, 同样道理我们可以得到B的反应函数。 • 0, 如果q>1/2 1, 如果p>1/2 • p [0,1], 如果q=1/2 q [0,1], 如果p=1/2 • 1, 如果q<1/2 0, 如果p<1/2
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
李四选左的预期赢利:2×p+3×q+1×(1-p-q)=1+p+2q 李四选中的预期赢利:2×p+1×q+0×(1-p-q)=2p+q 李四选中的预期赢利:4×p+2×q+3×(1-p-q)=p-q+3 各策略预期赢利无差异意味着有:1+p+2q=2p+q=p-q+3,可解出:p*=5/3,q*=2/3。这个 答案是显然错误的,因为作为概率p*怎么可能大于 1 呢? 到这里,实际上我们已经不需要探讨李四的混合策略了,因为错误已经明显。问题是, 为什么会有错误呢? 原因是:我们未能在求解混合策略均衡前剔除劣势策略。 观察表 3.4 的博弈,可发现对于张三来说,“下”是“上”的严格劣势策略,即张三是 永远不会选择“下”的——这相当于采取“下”的概率为 0,所以再求混合策略的时候我们 必须先对“下”这样的劣策略赋予 0 概率,或者剔除掉该策略。 读者可能还有一个问题:当我们赋予策略“下”一个概率 1-p-q,为什么计算出这个劣 势策略得到的概率不会为 0 呢?原因是,给定张三选下,李四选择左、中、右的赢利是不一 样的,而实际上既然张三不会选下,李四的预期赢利里实际上就不应包括(下,*)的情况, 所以,在根本上写出的李四的预期赢利都是错的,自然得到的关于策略“下”的选取概率更 是错的。 好了,现在我们来介绍正确的做法:首先应当剔除张三的“下”;而这一轮剔除之后读 者们会发现,对李四而言,“中”相对于“右”的劣势策略,应该剔除“中”。经过两轮剔除, 最后剩下的博弈转化成如下结构(表 3.5):
会发生车毁人伤的情况吗?
既然你和司机乙都采用了(2/3,1/3)的混合策略,那就意味着各种结果都是可能出现的。 并且我们可以计算各种情况出现的概率,见表 3.2。
表 3.2
懦夫博弈各情况出现的概率
司机乙
转向(2/3)
向前(1/3)
司机甲 转向(2/3) (你) 向前(1/3)
× = 2 2 4
33 9
假如存在一个概率 q,司机乙以概率 q 选择转向,那么他选择向前的概率将是 1-q。而 你选择不同策略的预期赢利就会是:
你选择转向的预期赢利:1×q+(-2)×(1-q)=3q-2; 你选择向前的预期赢利:2×q+(-4)×(1-q)=6q-4。 如果司机乙真的以概率 q 选择转向,那么意味着他不会始终重复地选择某个策略(纯策 略)。而他不选择重复地选择某个策略的条件必须是你也不会重复地选择某个策略。因此, 他以概率 q 选择转向必然意味着在这样的情况下你不可能有合适的纯策略;换句话说,他也 必须使你在你的两个策略之间随机选择。 那么,在什么情况下你会在两个策略之间进行随机选择呢?那就只有一种情况:当你选 择任何一个策略的预期赢利都完全相同的时候——因为这样你就无法选出哪个策略更优,就 只有随机选择。也就是说,司机乙选择 q,使得 3q-2=6q-4Îq*=2/31-q*=1/3 这样,司机乙以 2/3 的概率选择转向,以 1/3 的概率选择向前,就可以使你在两个策略 之间无差异而无法采取纯策略(读者可计算,你选择转向的预期赢利将是 0,选择向前的预 期赢利也是 0)。由此,我们可以记下司机乙采取的混合策略:(2/3,1/3)①。 反过来,司机乙对你的选择也有着概率判断,而为了保持这种判断信念的后果与信念本 身一致,你也以一定概率(比如 p)随机选择你得策略,且 p 需要满足使司机乙在他的两个策 略之间没有差异。此时他各策略的预期赢利为: 司机乙选择转向的预期赢利:1×p+(-2)×(1-p)=3p-2; 司机乙选择向前的预期赢利:2×p+(-4)×(1-p)=6p-4。 而你需要选择p的值,使 3p-2=6p-4,可得到p*=2/3,1-p*=1/3。读者可计算,此时司机乙 无论选转向还是选向前,其预期赢利皆为 0。由此,我们可以记下你采取的混合策略(2/3,1/3)。 由于你以概率 2/3 选择转向,以 1/3 的概率选择向前,以及司机乙以概率 2/3 选择转向, 以 1/3 的概率选择向前,刚好可以互为对彼此的最优反应,因此它是一个纳什均衡状态,称 混合策略纳什均衡,可以记为{(2/3,1/3),(2/3,1/3)}②。
成为现实结果的概率是 2/3×2/3=4/9(因为你和司机乙各有 2/3 的概率选择转向)。其他各单 元格的数字根据同样的道理计算。
可以发现,在懦夫博弈中,真正出现车毁人伤的概率其实还是很小的,为 1/9,约 11%。 大家还可以回顾古巴导弹危机那个博弈(第 2 章表 2.13),因为那个博弈跟懦夫博弈的结构和 赢利表是完全一样的,因此那个博弈当中,美国和苏联各自都将有混合策略(2/3,1/3):美 国以 2/3 的概率选择封锁,以 1/3 的概率选择空袭;苏联以 2/3 的概率选择拆除导弹,以 1/3 的概率选择保留导弹。由此,“妥协”局面(即美国封锁、苏联拆除)发生概率为 4/9,约 44%; 而爆发“核战争”的局面(美国空袭、苏联保留)发生的概率为 1/9,约 11%。我们会发现, 尽管“妥协”局面不是纳什均衡,但在混合策略下却是最可能发生的现实——真实的历史也 许就是这种随机对策的结果,如果真是这样,那么历史真的是有其命运,但又很偶然。
× = 1 2 2
33 9
× = 2 1 2
33 9
× = 1 1 1
33 9
注意,表 3.2 不是博弈的赢利表,而是各种情况出现的概率表。策略组合(转向,转向)
① (2/3,1/3)是混合策略的表示方法,括号中第一个数字表示选择第一个策略的概率,第二个数字表示选择 第二个策略的概率,以此类推。在这里,(2/3,1/3)具体表示司机乙以 2/3 的概率选择转向(策略一),以 1/3 的概率选择向前(策略二)。 ② {(2/3,1/3),(2/3,1/3)}是混合策略组合的表示方法,第一个小括号内表示第一个参与人的混合策略,第二 个小括号内表示第二个人的混合策略。在这个博弈中,可以证明这是唯一的混合策略纳什均衡。
懦夫博弈中的策略混合动机
考虑第 2 章表 2.11 的懦夫博弈。当时我们得到了两个纯策略纳什均衡:(向前,转向) 和(转向,向前)。为方便,我们将这个博弈的赢利在这里再画一遍(表 3.1)。
表 3.1
司机甲 (你)
懦夫博弈
司机乙
转向
向前Leabharlann 转向 1,1-2,2
向前 2,-2
-4,-4
但问题可以想得更复杂些。假如你是司机甲,你究竟会转向还是继续向前?这很可能取 决于你对司机乙的判断:司机乙选择转向还是选择向前决定着你的选择。但是你无法肯定司 机乙是否会确定地转向,因为他的行为取决于他对你的揣摩。所以,最终你也许只能认为司 机乙有多少可能转向、有多少可能向前。
表 3.3
麦琪的礼物
妻子
剪发 不剪
卖表 丈夫
0,0
2,1
p
不卖 1,2 0,0 1-p
q
1-q
各参与人在各策略下的预期赢利为: 丈夫:买表的预期赢利:0×q+2×(1-q)=2-2q(1)
不卖的预期赢利:1×q+0×(1-q)=q(2) 妻子:剪发的预期赢利:0×p+2×(1-p)=2-2p(3)
不卖的预期赢利:1×p+0×(1-p)=p(4) 读者有必要注意,丈夫的某个策略的赢利是该策略对应的行中丈夫的赢利与妻子的概率 积之和;而妻子的某个策略的赢利是该策略对应的列中妻子的赢利与丈夫的概率积之和。 纳什均衡应满足,①妻子选择p使丈夫在各策略之间的预期赢利没有差异,即使式子(1) 等于式子(2):2-2q=q,可解出q*=2/3;②丈夫选择q使妻子在各策略之间的预期赢利没有差 异,即使式子(3)等于式子(4):2-2p=p,可解出p*=2/3。 由此,纳什均衡状态下丈夫的混合策略是(2/3,1/3),妻子的混合策略也是(2/3,1/3)。混合 纳什均衡为{(2/3,1/3),(2/3,1/3)}。
表 3.5 混合策略求解须剔除劣策略(剔除后)
李四


上 张三

2,0 3,4
4,2 2,3
对于表 3.5 的博弈,混合策略的求解是容易的:假设张三选上的概率为 p,选中的概率
① “几乎所有”(almost all)是测度论术语,指的是除掉一个测度为零的集合外,其他情形定理结论都成立。
假如,你认为司机乙转向的可能性为 50%,向前的可能性也为 50%,那么你应该选择 转向还是向前?这取决于你采取不同策略的预期赢利,它们可以计算如下:
你选择转向的预期赢利:1×50%+(-2)×50%=-0.5; 你选择向前的预期赢利:2×50%+(-4)×50%=-1。 你将发现,当司机乙转向、向前的可能性各为 50%的时候,你选择转向是最合适,因 为转向的预期赢利(-0.5)比向前的预期赢利(-1)要大一些。 但是,司机乙当然知道你在猜测他选择各策略的概率,他会不会真如你所想那样以各自 50%的概率来选择转向或向前呢?如果他确实以各 50%的概率在两个策略间选择,那么他知 道你就会一定选择转向(这是对你最适合的策略);但是既然你选择转向,那么他又何必以各 自 50%的概率来选择其两个策略呢,他完全可以选择向前。 假如,你认为司机乙转向的可能性为 80%,向前的可能性仅为 20%,那么你又应该选 择什么策略?这仍然取决于你采取不同策略的预期赢利,如下: 你选择转向的预期赢利:1×80%+(-2)×20%=0.4; 你选择向前的预期赢利:2×80%+(-4)×20%=0.8。 显然,此情之下你选择向前(得 0.8)比选择转向(的 0.4)更合适。但是,给定你选择向前, 司机乙将会必定选择转向,即他选择转向的概率将为 1,而不是你事先认为的 0.8。也就是 说,从你的先念估计出发的结果会推翻你的先验估计。 同样地,司机乙对你也在进行一系列的估计。问题是,在什么状态,可以刚好使你们的 估计能够和从该估计出发的行为选择趋于一致呢?如果能够趋于一致,那就是达到了纳什均 衡状态。
相关文档
最新文档