两人零和对策举例.ppt
博弈论课件4两人博弈

这个新的博弈中的劣策略;继续这个过程,直到
没有劣策略存在。如果剩下的策略组合是唯一的,
这个唯一的策略组合就是“重复剔除占优均
衡”(iterated dominance equilibrium)。
• 如果这样的解存在,我们说该博弈是“重复剔除
占优可解的”(iterated dominance solvable).
2021/8/4
2,8
1,6
1,8
0,8
0,8
0,6
1,5
0,8
0,9
中南财经政法大学信息学院
26
方法2)博弈方Ⅰ的策略“S”和“D”都是策略“U”的下
策(是严格下策), 消去策略“S”和“D” 后为:
L
M
R
U
2,8
1,6
1,8
博弈方Ⅱ的策略“M”和“R”都是策略“L”的下策(但
不是严格下策) ,消去策略“M”和“R”后剩下策略组合
1
3
1 (4,3) (6,2)
③二次保持严优策略后,局中人甲只保留了纯策
略α1,这时局中人乙也应选择纯策略β1 。
例2、用严劣策略剔除法分析下面博弈
G={S1,S2,C}
1
2
2021/8/4
1
(8,10)
(7,6)
2
(100
,9)
(6,5)
中南财经政法大学信息学院
5
A.
B.
C.
D.
主动去按按钮;
等大猪去按,如果大猪不去在去按;
去按按钮,然后快速跑向猪食;
耐心等待,决不去按按钮。
E. 分析:智猪博弈的盈利矩阵为
双人零和博弈

双⼈零和博弈⼀、双⼈零和博弈的概念零和博弈⼜称零和游戏,与⾮零和博弈相对,是博弈论的⼀个概念,属⾮合作博弈,指参与博弈的各⽅,在严格竞争下,⼀⽅的收益必然意味着另⼀⽅的损失,⼀⽅收益多少,另⼀⽅就损失多少,所以博弈各⽅的收益和损失相加总和永远为“零”.双⽅不存在合作的可能.⽤通俗的话来讲也可以说是:⾃⼰的幸福是建⽴在他⼈的痛苦之上的,⼆者的⼤⼩完全相等,因⽽双⽅在决策时都以⾃⼰的最⼤利益为⽬标,想尽⼀切办法以实现“损⼈利⼰”.零和博弈的结果是⼀⽅吃掉另⼀⽅,⼀⽅的所得正是另⼀⽅的所失,整个社会的利益并不会因此⽽增加⼀分.⼆、双⼈零和博弈的模型的建⽴建⽴双⼈零和博弈的模型,就是要根据对实际问题的叙述确定参与⼈(局中⼈)的策略集以及相应的收益矩阵(⽀付矩阵).我们记双⼈零和博弈中的两个局中⼈为A和B;局中⼈A的策略集为a1,…,am,局中⼈B的策略集为b1,…,bn;cij为局中⼈A采取策略ai、局中⼈B采取策略bj 时A的收益(这时局中⼈B的收益为- cij).则收益矩阵见下表表1那么下⾯我们通过例⼦来说明双⼈零和博弈模型的建⽴: 例1甲、⼄两名⼉童玩猜拳游戏.游戏中双⽅同时分别或伸出拳头(代表⽯头)、或⼿掌(代表布)、或两个⼿指(代表剪⼑).规则是剪⼑赢布,布赢⽯头,⽯头赢剪⼑,赢者得⼀分.若双⽅所出相同,算和局,均不得分.试列出对⼉童甲的赢得矩阵.解本例中⼉童甲或⼄均有三个策略:或出拳头,或出⼿掌,或出两个⼿指,根据例⼦中所述规则,可列出对⼉童甲的赢得矩阵见表2.表2例2 从⼀张红牌和⼀张⿊牌中随机抽取⼀张,在对B 保密情况下拿给A 看,若A 看到的是红牌,他可选择或掷硬币决定胜负,或让B 猜.若选择掷硬币,当出现正⾯,A 赢p 元,出现反⾯,输q 元;若让B 猜,当B 猜中是红牌,A 输r 元,反之B 猜是⿊牌,A 赢s 元.若A 看到的是⿊牌,他只能让B 猜.当B 猜中是⿊牌,A 输u 元,反之B 猜是红牌,A 赢t 元,试确定A 、B 各⾃的策略,建⽴⽀付矩阵.解因A 的赢得和损失分别是B 的损失和赢得,故属⼆⼈零和博弈.为便于分析,可画出如图3的博弈树图.图3中,○为随机点,□分别为A 和B 的决策点,从图中看出A 的策略有掷硬币和让B 猜两种,B 的策略有猜红和猜⿊两种,据此可归纳出各种情况下A 和B 输赢值分析的表格,见表4.图3抽到红牌正⾯反⾯抽到⿊球○□□○□1/2掷硬币让B 猜1/21/2猜红猜⿊猜⿊猜红1/2让B 猜p-q-rst-u表4对表4中各栏数字可以这样来理解:因让A 看到红牌时或掷硬币或让B 猜.若A 决定选掷硬币这个策略,当出现正⾯,这时不管B 猜红或猜⿊,A 都赢p 元;当出现反⾯,不管B 猜红或猜⿊,A 都输q 元.同样A 选择让B 猜的策略后,他的输赢只同B 猜红或猜⿊有关,⽽与掷硬币的正反⾯⽆关.⼜若抽到的牌是⿊牌,A 的决定只能让B 猜,因⽽掷硬币策略对A 的胜负同样不起作⽤.考虑到抽牌时的红与⿊的概率各为1/2,掷硬币时出现正反⾯的概率也各为1/2,故当A 采取“掷硬币”策略,⽽B 选择“猜红”策略时,A 的期望赢得为:-q p 212121+t 21=()t q p 241+- 当A 采取让B 猜策略,B 选择“猜红”策略时,A 的期望赢得为:()()??? ??-+-r r 212121+t 21=()t r +-21相应可求得其他策略对A 的期望赢得值.由此可列出本例的收益矩阵,见表5.表5三、双⼈零和博弈的求解定理1(极⼩极⼤定理)在零和博弈中,对于给定的⽀付矩阵U ,如果存在混合战略1σ*=(1σ*1,…1σ*m )和2σ*=(2σ*1,…2σ*n )以及⼀个常数v 满⾜,对任意j 有∑=mi i ij a 11*σ≥v ,对任意的i 有∑=nj j ij a 12*σ≤v ,那么战略组合(1σ*,2σ*)为该博弈的Nash 均衡.其中,v 为参与⼈1在均衡中所得到的期望⽀付,亦称该博弈的值.这个极⼩极⼤定理,其基本思想就是:参与⼈1考虑到对⽅使⾃⼰⽀付最⼩的最优反应,从中选择使⾃⼰最好的策略.参与⼈2也遵循同样的思路,这样才能满⾜Nash 均衡的互为最优反应的条件.这样我们就可以得到双⼈零和博弈Nash 均衡的计算⽅法了,如以下定理定理2 对于给定的零和博弈,如果博弈的值v ⼤于0,则博弈的Nash 均衡(1σ*,2σ*)为以下对偶线性规划问题的解Min ∑=mi i p 1s.t. ∑=mi i ij p a 1≥1 (j=1,…,n)i p ≥0 (i=1,…,m) 和Max ∑=nj j q 1s.t. ∑=nj j ij q a 1≤1 (i=1,…,m)j q ≥0 (j=1,…,n) 其中,Nash 均衡⽀付∑∑====nj jmi iqpv 1111Nash 均衡战略),,,,(1*1m i vp vp vp =σ,),,,(1*2n j vq vq vq =σ由于此定理只适⽤于v ⼤于0的情形,因此对于v ⼩于等于0的情形,该定理所给出的⽅法需做适当的修改.命题如果⽀付矩阵U=mxn ij a )(的每个元素都⼤于0,即ij a >0,那么博弈的值⼤于0,即v >0.定理3 如果⽀付矩阵U '=m xn ij a )('是由U=mxn ij a )(的每个元素都加上⼀个常数c 得到,即c a a ij ij +=',那么⽀付矩阵U 和U '所对应的零和博弈的Nash 均衡战略相同,博弈的值相差c.根据以上定理,可以得到如下求解⼀般零和博弈Nash 均衡的⽅法:(1) 若⽀付矩阵U 中的所有元素都⼤于零,则可以直接根据定理进⾏计算;若⽀付矩阵U 中有⼩于0的元素,可以通过加上⼀个常数使它们都⼤于0,然后再根据定理进⾏计算. (2) 求解定理中的两个对偶线性规划问题.下⾯通过实例来说明如何求解双⼈零和博弈的Nash 均衡.例3 求解下图中战略式博弈的Nash 均衡. 参与⼈2L M RU参与⼈1 C D通过求解对偶线性规划问题求零和博弈的Nash 均衡解根据前⾯的介绍,可知该博弈的⽀付矩阵为U=224132312不难发现,该博弈的⽀付矩阵U=()33x ij a 的每个元素都⼤于0,即ij a >0,那么博弈的值⼤于0,即v>0.设参与⼈1和参与⼈2的混合战略分别是1σ=(321,,vp vp vp )和2σ=(321,,vq vq vq ),利⽤对偶线性规划求解⽅法求解该战略式博弈的Nash 均衡,构造规划问题如下.Min {321p p p ++}s.t. 321422p p p ++≥1 32123p p p ++≥1 32123p p p ++≥1 1p ≥0,2p ≥0,3p ≥0 和Max {321q q q ++}s.t. 32132q q q ++≤1 32132q q q ++≤1 321224q q q ++≤1 1q ≥0,2q ≥0,3q ≥0求解第⼀个规划问题,得到1p =1/4, 2p =1/4, 3p =0,参与⼈1的⽀付v=2.因此,参与⼈1的混合战略1σ*=(1/2,1/2,0).同理,对对偶问题求解,得到1q =0,2q =1/4, 3q =1/4,参与⼈2的损失v=2,因此参与⼈的混合战略2σ*=(0,1/2,1/2).所以,该博弈存在⼀个混合战略Nash 均衡((1/2,1/2,0)(0,1/2,1/2),).例4 求解下图中的战略式博弈的Nash 均衡.参与⼈2L M R U 参与⼈1 C D通过求解对偶线性规划问题求零和博弈的Nash 均衡解该博弈的⽀付矩阵为U=--203011122 在上树⽀付矩阵U=33)(x ij a 中,12a <0, 21a <0.为了利⽤对偶线性规划模型求解博弈的解,构造⽀付矩阵U '=33')(x ij a ,其中a 'ij =ij a +c. 令c=2,那么新构造的⽀付矩阵为U '=425231304 设参与⼈1和参与⼈2的混合战略分别是1σ=(v 'p 1, v 'p 2, v 'p 3)和2σ=(v 'q 1, v 'q 2 v 'q 3,),v 为原博弈的值,v '为新博弈的值,且v '=v+2,利⽤对偶线性规划求解⽅法求解新战略式博弈的Nash 均衡,构造规划问题如下.Min {321p p p ++} s.t. 32154p p p ++≥13223p p +≥1 321423p p p ++≥11p ≥0, 2p ≥0, 3p ≥0Max {321q q q ++}s.t. 3134q q +≤1 32123q q q ++≤1 321425q q q ++≤1 1q ≥0,2q ≥0,3q ≥0通过求解对偶问题,得到1p =0,2p =3/13, 3p =2/13,参与⼈1的⽀付v '=13/5, 1q =1/13, 2q =4/13, 3q =0,参与⼈2的损失v'=13/5.因此,参与⼈1的混合战略1σ*=(0,3/5,2/5), 参与⼈2 的混合战略2σ*=(1/5,4/5,0),原博弈的值v= v '-2=3/5.所以,博弈存在⼀个混合战略Nash 均衡((0,3/5,2/5),(1/5,4/5,0)).。
第三章 对策论

囚犯困境问题在经济、政治、军事等领域的应用举例
例:寡头垄断企业定价的对策 卡特尔价格不是纳什均衡, 最终结果:每个企业按照纳什均衡的价格进行 定价,其利润小于卡特尔价格条件下的利润。
例:军备竞赛
冷战期间,美苏两国的军备竞赛,使得两 国的社会福利都变得更糟。
案例分析: 生活中的“囚徒困境”例子
—— 商家价格战 出售同类产品的商家之间本来可以通 过共同将价格维持在高位而获利,但实 际上却是相互杀价,结果都赚不到钱。 当一些商家共谋将价格抬高,消费者 实际上不用着急,因为商家联合维持高 价的垄断行为一般不会持久,可以等待 垄断的自身崩溃,价格就会掉下来。
“齐王赛马”齐王在各局势的赢得表(单位:千金)
田忌 齐王
β1 β2 β3 β4 β5 β6 (上中下) (上下中) (中上下) (中下上) (下上中) (下中上)
α1 (上中下) α2 (上下中) α3 (中上下) α4 (中下上) α5 (下上中) α6 (下中上)
3
1
1
1
-1
1
1
1 -1 1 1
例:囚犯困境中,每个囚犯均有2个策略: {坦白,抵赖}
坦白
抵赖 0,-10 -1,-1
(3)局势
坦白 抵赖
-9,-9 -10,0
当每个局中人从各自策略集合中选择一策略而组 成的策略组成为一个局势,用 ( si , d j )来表示。 (4)赢得(支付)
局中人采用某局势时的收益值。
例:当局中人甲选择策略si ,局中人乙选策略 dj 时,局中人甲的赢得值可用 R甲 (si , d j )表示。
纳什简介
1994年诺贝尔经济学奖获得者, 纳什在普林斯顿读博士时刚刚20岁出 头,他的一篇关于非合作对策的博士 论文和其他两篇相关文章确立了他博 奕论大师的地位。到上世纪50年代末, 他已是闻名世界的大牌科学家了。 然而,正当他的事业如日中天的时候,天妒英才,他得了 严重的精神分裂症。多亏前妻艾莉西亚的爱心呵护和普林 斯顿大学诸多朋友和同事无私的帮助才没有使他流落街头, 并最终把他推上诺贝尔经济学奖宝座(1994年获奖)。 他的故事被好莱坞拍成了电影《美丽心灵》,该影片获 得了2002年奥斯卡金像奖的四项大奖
高等运筹对策论.ppt (恢复)

第一节 对策现象与对策论
国人自古喜博弈,你来我往较智力;古有齐王和田忌,赛马输去一千金; 纳什当今论均衡,阐明齐王为何笨;从此发展博弈论,用于经济和管理。
2
最近 20 年来,经济学经历了一场博弈论革命。 1994 年度的诺贝尔经济学奖授予三位博弈论专家——纳 什(Nash),泽尔滕(Selten)和海萨尼(Harsanyi)。 这是博弈论成为现代经济学重要内容的一个标志。 经典意义上的经济学,以经济主体人的自利行为及 相应的市场反应为研究的出发点。无论是消费者还是生 产者,也无论是竞争形式还是垄断形式,基本上是经济 主体人面对市场作出自己的最优决策。形势严峻也好宽 松也好,行为的结果是主体人自己决策的结果。
12
假定两个企业都采取比较低的价格,可以各得利润 30 亿;都 采取比较高的价格各得利润 50 亿;而一家采取比较低的价格而另 一家采取比较高的价格时,那么低价格的一家因多销而利润为 60 亿,而高价格的一家因滞销而利润为 20 亿。究竟是采用较低的价 格好还是采用较高的价格好呢?他们面临着一场博弈或对策……
11
价格大战和双赢对局 我们来看两个企业“价格大战”的例子。 两个企业垄断或几乎垄断了某种商品的市场,他们 都想打垮对手,争取更大的利润。可口可乐公司和百事 可乐公司,几乎垄断了美国碳酸饮料的市场,他们之间 的争斗,就是这个样子。争斗的目的,当然是想增加自 己企业的利润。如何制定自己的价格呢?是高价?还是 低价? 这里,要紧的因素是市场份额……
15
博弈论主要研究非合作的博弈。这有两方面的原因。 从经济的角度看,为谋求最大利益而结成联盟——“卡特尔”, 然而卡特尔行为的本身就提供了瓦解卡特尔的激励。在人类的经济 活动中,除了OPEC以外,成功的例子实在很少。 从政府管制的角度看…… 发达国家对垄断现象和卡特尔现象的限制往往更加严厉……
运筹学chaptPPT学习教案

(1 )
iixm11i
xi
0
1 (i
1,2,...,
m)
m
aijy j
v
(i 1,2,...,m)
j1
(2) n yi 1 yji1 0 (j 1,2,...,n)
其中v为对策的值。作如下变换,(设v>0)
x i
xi
v
,
yj
yj
v
于是不等式组(1)和(2)变为等价的互为对偶线性规
划问题
第12页/共112页
13
类似于纯策略的情况,若
maxminE(X, Y) minmaxE(X, Y) E(X,* Y*)
XS1* YS*2
YS*2 XS1*
则称E(X*,Y*)为对策 的值,称(X*,Y*)为对策
在混合策略下的解,X*和Y*分别为局中人1和局中人2的最 优混合策略。
在纯策略下矩阵对策的解是混合策略下矩阵对策解的特 殊情况。
损失。
第11页/共112页
12
1.混合策略和混合局势
一般地, 设给定 S1, S2 ; A, 令
X (x1, x2 ,, xm), Y (y1, y2 ,, yn)
m
m
S1* {X | xi 0; xi 1}, S*2 {Y | yj 0; yj 1}
i1
i1
对任意X S1* , Y S*2 分别称为局中人1和局中人2的混合策略, 简称策略.
(X,Y)称为混合局势。
2.混合扩充和混合策略下的解
当X,Y由局中人1和局中人2分别独立决定以后,纯局势
(i ,j) 以概率xiyj出现,于是局中人1在混合策略下赢得的
数学期望为
mn
双人零和博弈的纳什平衡

双人零和博弈的纳什平衡什么是双人零和博弈?双人零和博弈是博弈论中的一个经典概念,它描述的是只有两个参与者,并且他们的利益完全相反。
在双人零和博弈中,一个人的收益等于另一个人的损失,因此总的收益为零。
这意味着一方的利益的增加必然伴随着另一方的利益的减少。
在这种情况下,参与者的决策将会相互影响,决策的结果将取决于双方的策略选择。
纳什平衡:博弈论的核心概念纳什平衡是博弈论中的一个重要概念,由诺贝尔经济学奖得主约翰·纳什在1950年代提出。
在一个博弈中,如果每个参与者的策略选择是最优的,而且没有任何一个参与者会因为改变自己的策略而增加自己的收益,那么这个策略组合就是一个纳什平衡。
纳什平衡可以理解为在一个博弈中没有更好的选择了。
即使参与者知道对手的策略,他们也不会改变自己的策略选择,因为任何改变都不会给予他们更多的收益。
纳什平衡是一个稳定的状态,在该状态下,每个参与者都能最大化自己的收益。
如何找到双人零和博弈的纳什平衡?在双人零和博弈中,参与者的决策会相互影响,并且每个参与者都会尽力选择能够让自己获得最大收益的策略。
要找到双人零和博弈的纳什平衡,可以运用博弈论中的求解方法,如支配策略、混合策略和占优策略等。
支配策略是指在一个策略组合中,某一个参与者的策略在其他参与者选择任何策略的情况下始终能给予该参与者更大的收益。
如果一个策略组合中存在支配策略,那么该支配策略通常会被认为是更优先的,并且将在纳什平衡中被选择。
混合策略是指参与者在博弈中以一定的概率选择不同的策略。
在双人零和博弈中,参与者可以通过选择合适的概率分配来达到最佳结果。
混合策略的目标是使对手无法准确预测自己的策略选择,从而增加自己的收益。
占优策略是指在一个博弈中,某个参与者的策略比其他策略更有优势。
占优策略可以通过分析参与者的回报函数和对手的策略来确定。
一个占优策略通常会导致参与者获得最大的收益,并在纳什平衡中被选择。
结论双人零和博弈是博弈论中的重要概念,它描述的是只有两个参与者,并且他们的利益完全相反。
第四讲对策论

计算结果为(保留有效部分)
Global optimal solution found at iteration: 0
Objective value:
5.000000
Variable
Value Reduced Cost
V_A 5.000000
0.000000
X( 1) 0.000000
2.000000
优化建模
例1.1 “石头--剪子--布”中儿童甲的支付函数
乙
石头
剪子
布
石头
0
1
-1
甲
剪子
-1
0
1
布
1
-1
0
优化建模
•当局中人得失总和为零时,称这类对策为零和对策; 否则称为非零和对策。
•当局中人只有两个,且对策得失总和为零,则称为 二人零和对策,若总得失总和为常数,则称为二人常 数和对策,若得失总和是非常数的,则称为二人非常 数和对策。
在对策论中,应有以下要素:
优化建模
(1) 局中人。是指参与对抗的各方,可以是一个人, 也可以是一个集团。在例1.1的甲、乙两名儿童就 是局中人。
(2) 策略。是指局中人所拥有的对付其他局中人的 手段、方案的集合。如例1.1中共有石头、剪子、 布三种策略。
(3) 支付函数(或收益函数)。是指一局对策后各局 中人的得与失,通常用正数字表示局中人的得,用 负数字表示局中人的失。在例1.1的局中人甲的支付 函数如表所示。
j 1
的概率混合使用他的n种策略。
优化建模
当A采用混合策略,B分别采用纯策略
bj(j=1,2, …,n), A的赢得分别为
m
cij xi ( j 1,2,, n)
零和博弈例子案例举例:邻里之间的争执

零和博弈例子案例举例:邻里之间的争执零和游戏,就是零和博弈,是博弈论的一个基本概念,意思是双方博弈,一方得益必然意味着另一方吃亏,一方得益多少,另一方就吃亏多少。
之所以称为“零和”,是因为将胜负双方的“得”与“失”相加,总数为零。
一个游戏无论几个人来玩,总会有输家和赢家,赢家所赢的都是输家所输的,所以无论输赢多少,正负相抵,最后游戏的总和都为零,这就是零和游戏。
零和博弈属于非合作博弈。
在零和博弈中,双方是没有合作机会的。
各博弈方决策时都以自己的最大利益为目标,结果是既无法实现集体的最大利益,也无法实现个体的最大利益。
零和博弈是利益对抗程度最高的博弈,甚至可以说是你死我活的博弈。
在社会生活的各个方面都能发现与“零和游戏”类似的局面,胜利者的光荣后面往往隐藏着失败者的辛酸和苦涩。
从个人到国家,从政治到经济,到处都有“零和游戏”的影子。
一群年轻人在一家火锅城为朋友过生日,其中有一个年轻人拿着自己已吃过了的蛋饺要求更换。
由于火锅城有规定,吃过的东西是不能换的,所以年轻人的要求遭到拒绝,双方因此发生冲突,打了起来。
最后,火锅城以人多势众的优势打败了那几个青年人,可以说博弈的结果是火锅城的一方赢了,而实质上,他们真的赢了吗?从长远来看,他们并没有赢。
这就是人际博弈中的“零和博弈”,这种赢方的所得与输方的所失相同,两者相加正负相抵,和数刚好为零。
也就是说,他们的胜利是建立在失败方的辛酸和苦涩上的,那么,他们也将为此付出代价。
还以此事为例,虽然火锅城一方的人赢了,但从实际角度去分析,从实际情况出发,我们不难发现,火锅城的生意也会因此造成影响,传出去就会变成“这家店的服务真是太差劲了,店员竟敢打顾客,以后再也不来这里了”,“听说没有,这家店的人把顾客打得可不轻啊,以后还是少来这里”,“什么店,竟然动手打人,做得肯定不怎么样”,等等。
其实,邻里之间也是一种博弈,而博弈的结果,往往让人难以接受,因为它也是一种一方吃掉另一方的零和博弈。