矩阵对策
矩阵对策的最优纯策略

,m α,
,
,n β;则分别为
},m α和},n β。
当局中人Ⅰ选定纯策略i α和局中人Ⅱ选定纯策略后,就形成了一个纯局)j ,这样的纯局势共有m n ⨯个。
对任一纯局势赢得值为ij a ,称
12122
212n n m m mn a a a a a ⎤⎥⎥⎥⎥⎦
为局中人Ⅰ的赢得矩阵。
局中人Ⅱ的赢得矩阵就是当局中人Ⅰ,Ⅱ的策略集12,S S 及局中人Ⅰ的赢得矩阵对策也就给定了,记为{}12,,G S S A =。
在齐王赛马的例子中,齐王的赢得矩阵
},
,m α,
},n β,max )
成立,记其值为)成立的纯局势()
,i j αβ**
在纯策略意义下的解(或鞍点)
},m α,},n S β,
1,2,
,,m x ∑1,2,
,,n y ∑分别称为局中人Ⅰ和Ⅱ的混合策略集分别称为局中人Ⅰ和Ⅱ的混合策略(或策略),对
),m x 可设想成当两个局中人多次重复进行对策
12,,
,m ααα的频率。
若只进行一次时对策,混合
对策可设想成局中人Ⅰ对各纯策略的偏爱程度。
求解混合策略的问题有图解法,迭代法、线性方程组法和线性规划法,在。
第1章 矩阵对策

此时局中人 1 和 2 是同时并且独立地进行选择.因此局中人 1 获得支付 aij ,局中人 2 获得支
( ) 付 −aij .如果支付是一个负数, 那么可以认为是局中人的实际损失.
记具有支付矩阵 A 的对策 Γ 为 ΓA ,并且根据矩阵的维数,称之为 (m × n) 对策.如果
果它被隐藏在那里)的概率为 0 < βi ≤ 1 ,i = 1, 2, , n .如果找到目标,局中人 1 获得收益 为α .在其中隐藏和搜索物体的坑的编号是局中人的策略,局中人 1 的支付等于期望收益与
寻找目标时所付出的努力之差.隐藏和搜索目标的问题可以转化为矩阵对策,其支付矩阵为
⎡αβ1 −τ1 −τ1 −τ1
选择进行攻击的目标(局中人 1)和防卫目标(局中人 2)的问题可以转化为矩阵对策,
其支付矩阵为
⎡β1τ1 τ1
A
=
⎢ ⎢
τ2
β2τ 2
⎢
⎢ ⎣
τn
τn
τ1 ⎤
τ2
⎥ ⎥
⎥
β
nτ
n
⎥ ⎦
例 1.1.5 (离散型搜索对策)有 n 个坑,局中人 2 在 n 个坑中之一隐藏物体,局中人
1 希望找到它.在寻找第 i 个坑时局中人 1 付出的努力为τi > 0 ,在第 i 个坑中找到目标(如
m −1 > n ,则 a10 = n +1+1 = n + 2 , a11 = n −1+1 = n , a1 j = n − j +1−1−1 = n − j −1,
2 ≤ j ≤ n .一般情况下(对任意的 m 和 n )元素 aij , i = 0, m , j = 0, n 以及支付矩阵可以
第十三讲 对策矩阵解法

4
矩阵对策解法
• 矩阵对策模型给定后,各局中人面临的问 题:如何选取对自己最为有利的纯对策略, 以谋取最大的赢得?
5
矩阵对策的纯策略
例1:设有一矩阵对策G={S1, S2; A},其中
6 3 A 9 3 1 2 1 0 8 4 10 6
求最优纯策略?
取大则取2 max min aij= 2
i j
取小则取2 min max aij= 2
j
i
7
矩阵对策的纯策略
定义1 设G={S1, S2; A}为一矩阵对策,其中 S1={α1, …,αm},S2={β1, …,βn}, A=(aij)m×n。若
max min aij min max aij
7 1 8 3 2 4 A 16 1 3 3 0 5
9
答案
1
2
3
min ai j
j
α1 α2 α3
max ai j
i
-7 3 16 -3 16
1 2 -1 0 2*
-8 4 -3 5 5
-8 2* -3 -3
7 1 8 3 2 4 A 16 1 3 3 0 5
16
矩阵对策实例
这一储量问题可以看成是一个对策问题,把采购员当作局中人Ⅰ,他 有三个策略:在秋天时买10吨、15吨与20吨,分别记为 1 , 2 ,3 把大自然看作局中人Ⅱ(可以当作理智的局中人来处理),大自然(冬季 气温)有三种策略:出现较暖的、正常的与较冷的冬季,分别记为 1 , 2 ,3 把该单位冬季取暖用煤实际费用(即秋季购煤时的用费与冬季不够时 再补购的费用总和)作为局中人Ⅰ的赢得,得矩阵如下:
矩阵对策问题及其解法

矩阵对策问题及其解法背景对策论研究具有竞争性质的现象。
有权决定⾃⾝⾏为的对策参加者称为局中⼈,所有局中⼈构成集合I,在⼀局对策中可供剧中⼈选择的⼀个实际可⾏的完整的⾏动⽅案成为策略,对于任意剧中⼈i∈I,都有⾃⼰的策略集S i。
⼀局对策中由各剧中⼈选定的策略构成的策略组称为局势s=(s1,...,s n),⽽全体局势集合S=S1×...×S n。
局势决定了对策的结果,对局势s∈S,局中⼈i可以得到收益H i(s),也称为局中⼈i的赢得函数。
矩阵对策即⼆⼈有限零和对策,是⼀类较为简单的对策模型。
矩阵对策基础我们假设,局中⼈ I 有纯策略α1,...,αm,局中⼈ II 有纯策略β1,...,βn,⼆者各选择⼀个纯策略则构成m×n个纯局势 (αi,βj),将 (αi,βj)下 I 的赢得值记为a i,j,设矩阵A=[a i,j],称为 I 的赢得矩阵或 II 的⽀付矩阵。
局中⼈ II 的赢得矩阵就是 −A T。
最优纯策略若纯局势 (a i∗,b j∗) 满⾜max i minj a i,j=minjmaxi a i,j=a i∗,j∗则称为矩阵对策 {S1,S2;A} 的最优纯策略。
显然,最有纯策略在赢得矩阵中对应的元素⼀定满⾜,其是所在⾏的最⼩元素,也是所在列的最⼤元素,即矩阵的鞍点。
混合策略当纯策略不存在时,我们希望给出⼀个选取不同策略的概率分布。
我们记 I,II 的概率分布向量分别为x,y,所有概率分布向量构成的集合为S1,S2,则局中⼈ I 的赢得函数为E(x,y)=x T Ay。
纯策略是混合策略的特例。
若混合局势 (x∗,y∗) 满⾜max x miny E(x,y)=minymaxx E(x,y)=E(x∗,y∗)则称为矩阵对策 {S1,S2;A} 的最优混合策略。
同样,混合策略 (x∗,y∗) 是最有混合策略的充要条件也是 (x∗,y∗) 是函数E(x,y) 的鞍点。
12矩阵对策

对策与优化
Monty Hall悖论 悖论
参赛者会看见三扇关闭了的门,其中一扇的后面有一辆 参赛者会看见三扇关闭了的门, 汽车,选中后面有车的那扇门就可以赢得该汽车, 汽车,选中后面有车的那扇门就可以赢得该汽车,而另 外两扇门后面则各藏有一只山羊。 外两扇门后面则各藏有一只山羊。当参赛者选定了一扇 但未去开启它的时候, 门,但未去开启它的时候,节目主持人会开启剩下两扇 门的其中一扇,露出其中一只山羊。 门的其中一扇,露出其中一只山羊。主持人其后会问参 赛者要不要换另一扇仍然关上的门。问题是换另一扇门 赛者要不要换另一扇仍然关上的门。 是否会增加参赛者赢得汽车的机率? 是否会增加参赛者赢得汽车的机率?
英式拍卖法 一级密封价格拍卖法 二级密封价格拍卖法
机制设计
有七个人曾经住在一起,每天分一大桶粥。 有七个人曾经住在一起,每天分一大桶粥。要命的 粥每天都是不够的。一开始, 是,粥每天都是不够的。一开始,他们抓阄决定谁 来分粥,每天轮一个。于是乎每周下来, 来分粥,每天轮一个。于是乎每周下来,他们只有 一天是饱的,就是自己分粥的那一天。 一天是饱的,就是自己分粥的那一天。后来他们开 始推选出一个道德高尚的人出来分粥。 始推选出一个道德高尚的人出来分粥。强权就会产 生腐败,大家开始挖空心思去讨好他,贿赂他, 生腐败,大家开始挖空心思去讨好他,贿赂他,搞 得整个小团体乌烟障气。 得整个小团体乌烟障气。然后大家开始组成三人的 分粥委员会及四人的评选委员会, 分粥委员会及四人的评选委员会,但他们常常互相 攻击,扯皮下来,粥吃到嘴里全是凉的。 攻击,扯皮下来,粥吃到嘴里全是凉的。
对策论的发展
税收与拉弗曲线 拍卖机制的设计 二手车市场信息 逆向选择的信贷 机制设计的合作
矩阵对策纯策略意义下的解

此而来。通常把矩阵对策记为
G={Ⅰ,Ⅱ;S1,S2;A} 或
G={S1,S2;A}
例:G={S1,S2,A} S1={α1,α2,α3,α4} S2={β1,β2, β3}
-6 1 -8 A= 3 2 4
9 -1 -10 -3 0 6
对于G={S1,S2;A}, 若有等式
max min aij=min max aij=ai*j*
aij*≤ai*j*≤ai*j
例如
65 15 A= 8 5 02
65 2 -1 55 62
7.3 矩阵对策混合策略意义下的解
先看一个简单的例子: A= 3 6 54
一般地,设矩阵对策G={S1,S2;A},其中 S1={α1,α2,…,αm},S2={β1,β2,…,βn}, A=(aij)m×n
为各局中人的最优混合策略。例
(2)线性规划法
当对策的值大于0时,可利用
线性规划法求解矩阵对策。构造
两个线性规划问题
min z=∑xi i
∑i aijxi≥1 (j=1,2,…,n)
xi≥0
(i=1,2,…,m)
max w=∑j yj
∑j aijyj≤1 (i=1,2,…,m)
பைடு நூலகம்
yj≥0
(j=1,2,…,n)
7.2 矩阵对策纯策略意义下的解
矩阵对策就是二人有限零和对策。设两个局中人为Ⅰ、
Ⅱ,它们各自的策略集为
S1={α1,α2,…,αm} S2={β1,β2,…,βn} 当局中人Ⅰ选定纯策略αi,局中人Ⅱ选定纯策略βj后,就 形成了一个纯局势(αi,βj),这样的纯局势共有m·n个。
对任一纯局势(αi,βj),记局中人Ⅰ的赢得值为aij,则得 矩阵 A=(aij),称为矩阵人Ⅰ的赢得矩阵。由于是零和对 策,则矩阵人Ⅱ的赢得矩阵为-A。矩阵对策的名称正是由
(优选)矩阵对策的解法详解.

3.1 公式法、图解法和方程组法
1. 2×2 对策的公式法
2×2 对策是指局中人Ⅰ的赢得矩阵为2×2 阶的, 即
A
a11 a21
a12
a22
如果 A 有鞍点, 则很快可求出各局中人的最优纯策略; 如果
A 没有鞍点,则可证明各局中人最优混合策略中的 xi* , yj* 均 大于零。于是, 由定理 6 可知, 为求最优混合策略可求下列
(5)确定经过点 P 的两相交直线,根据两相交直线列出对应方程 组,求出 y*.
(6)根据定理6的结论计算 x* 的值。
2020/7/19
10
例14
用图解法求解矩阵对策 G = { S1 , S2 ; A} , 其中
2 7
A
6
6
11 2
2020/7/19
11
2020/7/19
12
例 15
求解赢得矩阵A 的矩阵对策
A 4 1
8
3 5
4 5
2 7
2020/7/19
13
2020/7/19
14
3. 线性方程组方法
根据定理4 , 求解矩阵对策解( x*, y* ) 的问题等价于求解不 等式组,又根据定理5 和定理6 , 如果假设最优策略中的 xi* 和 yj* 均不为零, 即可将上述两个不等式组的求解问题转化 成求解下面两个方程组的问题:
(1) i
i
aij xi v, j 1,2,...,n
xi 1
(2)
j j
aij y j v,i 1,2,...,m yj 1
2020/7/19
15
3. 线性方程组方法
例16
求解矩阵对策——“齐王赛马”
《运筹学教程》胡云权 第五版 运筹学--6对策论--矩阵对策

13
矩阵对策的纯策略
4、矩阵对策的鞍点与解 多鞍点与无鞍点对策 例: 设有一矩阵对策如下,求它的解。
6 5 6 5
A 1 4 2 1 8 5 7 5
0 2 6
2
局势(α1, β2),(α1, β4),(α3, 均构成鞍点,此对策有多个解。
β2)(α3,
β4) 14
矩阵对策的纯策略
5、矩阵对策纯策略的性质
作业
P385 习题 • 12.2 • 12.3 • 12.4
16
矩阵对策的混合策略
1、混合策略
对于 G {S1, S2; A}
局中人Ⅰ有把握的赢得至少为 v1
max i
min j
aij
局中人Ⅱ有把握的支付至多为 v2
min max
j
i
aij
一般为 v1 v2 ,特别地当 v1 v2 时,则称对策 G 在
yS
* 2
xS1*
20
矩阵对策的混合策略
5、最优混合策略
定义 4:设 G* {S1*, S2*; E} 是矩阵对策 G {S1, S2; A}的混合扩充。
如果
maxmin E(x,
xS1* yS2*
y)
m in m ax E ( x,
yS2* xS1*
y)
,其值为 VG
,则称
VG 为
对策 G* 的值,相应的混合局势 (x*, y*) 称为在混合策略意义下的
44
22
23
对策的值(局中人
I
的赢得期望值)VG
9 2
。
矩阵对策的解法
24
图解法
仅适用于赢得矩阵为2×n或m×2阶的矩阵对策问题。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
1 3 1
1
1 1 3
4、优超原理
定义: 若A中第i, k 行有aij akj , j 1 n 称 i 优超于 k 。 记 i k 若A中第j, l列有aij ail , i 1 m 称 j 优超于l 记 j l 。
例: A
1 0 2 2 3 1
局中人乙的最优策略为d2,
对策值V=1
(2) 多鞍点与无鞍点对策
例 设有一矩阵对策如下,求它的解。
6 1 A 8 0 5 4 5 2 6 2 7 6 5 - 1 5 2
局势 ( s1 , d 2 ) ( s1 , d 4 ) ( s3 , d 2 ) ( s3 , d 4 ) 均构成鞍点, 此对策有多个解。
4.收益期望函数
对于一个混合局势(x,y),用
E ( x , y ) xi ( aij y j ) aij xi y j x T Ay
i 1 j 1 i 1 j 1
m
n
m
n
表示局中人甲在混合局势(x,y)时的收益期望值。 5.混合策略对策模型 对于一个纯策略对策 G ( S , D, A) ,我们用
归一化
1 x x' , w
1 y y' z
例: “剪刀、石头、布” 游戏,
1 1 0 A 1 0 1 1 1 0
A+2
m i n z x1 x2 x3 2 x1 x2 3 x3 1 1 1 1 T 3 x1 2 x2 x3 1 求解 X ( , , ) st x1 3 x2 2 x3 1 6 6 6 xi 0( i 1, 2, 3) 归一化 1 1 1 T X ( , , ) 3 3 3 1 1 1 T 同理, Y ( , , ) 3 3 3
G* ( S * , D* , E ) 表示一个混合策略矩阵对策及
G的一个混合扩充。
二、混合策略对策的解 1.混合策略分析
* * * G ( S , D , E) 对于混合策略对策
局中人甲的策略决策模型为:
* max f ( x ) max min E ( x , y ) E ( x , y ) x x* * * * xS xS yD
称为i的劣策略(Dominated strategy)。
' i
'' i
例: B1 Ⅰ A1 A2 1, 0 0, 3
Ⅱ
B2 1, 2 0, 1 B3 0, 1 2, 0
劣策略
可按如下思路寻找均衡解: 首先找出某个局中人的劣策略(如果存在),剔除该劣 策略,得到新的博弈;再剔除该新博弈中的某个中人的 劣策略。重复进行,直至只剩下唯一的策略组合为止, 这个剩下的策略称为重复剔除的占优均衡(Iterated dominance equilibrium)。
定义:如果对应所有的 si,s
i ' i
i 是i的严格最优选择,即
ui ( s , si ) ui ( s , si ) si , s s
' i
i
则称 si 是i的占优策略(Dominant strategy)。 s 定义:如果对应所有的i, i 是i的占优策略,则称策略组合
例: 矩阵对策赢得矩阵如下,试求它的解。
3 6 A 5 4
解: 3,4 4 VL maxminaij max
5,6 5 VU minmaxaij min
j i
i
j
i 2
j 1
故:该对策无鞍点,即无解。
例:齐王赛马为无鞍点对策
田忌 齐王
1
2
3
2 1 3
2 3 3
3 1 3 2
' 性质1:若G ( S1 , S2 , A)中, i k,构造新的G ' ( S1' , S2 , A' ) ' 其中S1'是S1去掉 k,S2 =S2,A'是A中去掉k 行,则:
① VG VG '
β1 β2 β3 β4 β5 β6 (上中下) (上下中) (中上下) (中下上) (下上中) (下中上)
α1 (上中下) α2 (上下中) α1 (中上下) α1 (中下上) α1 (下上中) α1 (下中上)
3 1
1 3
1 1
1 1
-1 1
1 -1
1
-1 1 1
-1
1 1 1
3
1 1 -1
1
3 -1 1
A
'
根据性质3,则X * (0,0,1,0), Y * (1,0,0,0), VG* 2
§3 混合策略对策
一、混合策略对策的基本概念
无鞍点对策的求解方法是采用混合策略,混合策略就 是局中人考虑以某种概率分布来选择他的各个策略。
1.混合策略
T x ( x , x , , x ) , xi 1, xi 0, m维概率向量 1 2 m i 1 m
二、纳什均衡
均衡(Equilibrium)是所有局中人的最优策 略的组合,一般记为:
s ( s ,, s ,, s )
s 是第i个局中人在均衡情况下的最优战略,即 其中,
i
1
i
n
ui ( s , si ) ui ( s , si ) s s
' i ' i
i
前提: 对策双方均理智 结论: 最不利中选最有利
s1 3 A s 2 6 s3 - 5
1 0 -1
2 - 3 4
问:双方局中人采用何策略最佳。
解:可用下述表格表示上述寻找最优纯策略过程:
d1 s1 s2 s3 3 6 -5 6 d2 1 0 -1 1 d3 2 -3 4 4
i i j
(2)局中人乙对每个策略dj的评价值为
dj
* j
评价
g (d j ) max a ij
i
故局中人乙选择策略模型为:
d ming(d j ) minmaxaij Vmin
j j i
3. 纯策略对策模型的解
(1) 鞍点与解 对于一个对策 G S , D, A ,如果有
* maxminaij minmaxaij aij i j j i
V a 称为对策G 之值。 例 上例中 G S , D, A
* ij
则称局势 ( si , d j ) 为对策G的一个鞍点,
*
*
3 A 6 - 5
1 0 -1
2 - 3 4
局势 ( s1 , d 2 )构成一个鞍点, 局中人甲的最优策略为s1 ,
(Ⅰ)
m in
w x1 ' x2 ' xm '
m aij xi ' 1, j 1,2, , n s.t i 1 xi ' 0, i 1,2, , m
(Ⅱ) max
z y1 ' y2 ' yn '
n aij y j ' 1, i 1,2, , m s.t. j 1 y j ' 0, j 1,2, , n
前提假设:“理性”是所有局中人的共同知识 (Common Knowledge)
例:求下面博弈的重复剔除的占优均衡解
0 4 3 1 2 2 3 2 0 4
2 1 2 4
对于A ' min max aij max min aij 2, 即对策解是( 3 , 1)VG 2。
j i i j
2 3 4 (2) 0
局中人乙的策略决策模型为:
* * min g ( y ) min max E ( x , y ) E ( x , y ) y y合策略矩阵对策的线性规划解法
若所有aij>0(否则,可取一充分大M>0,使得aij +M>0), 则可用下述两规划 来求解混合策略:
二人有限零和对策
§2 纯策略对策
一、纯策略与混合策略
纯策略是指确定的选择某策略;而混合策略 则指以某一概率分布选择各策略。 二、纯策略对策的解 1. 引例
D d1 , d 2 , d 3 ,其赢得矩阵为: d1 d 2 d 3
例
设一对策 G S , D, A,其中 S s1 , s2 , s3 ,
i
( si ( s1 , , si 1 , si 1 , , sn ) 表示除 i 之外
所有局中人的策略组成的向量。)
均衡的层次:
占优策略均衡 重复剔除的占优均衡 (纯策略)纳什均衡 混合策略纳什均衡
弱 强
条 件
1. 占优策略均衡
坦白
II 不坦白
考虑“囚犯困境”问题: 坦白 (9, 9) (0, 10) I 不坦白 ( 10, 0) ( 1, 1) 不论同伙选择什么策略,每个囚徒的最优策略是“坦白”。
s ( s ,, s )
1
n
为占优策略均衡。
小猪
2. 重复剔除的占优均衡
考虑智猪博弈问题:
按
等待
大 按 猪 等待
5, 1
9,-1
4,4
0, 0
“等待”是小猪的占优战略,而大猪无占优战略。
定义:令
则
s
' i
s 和 s 为局中人i的两个策略,如果 ' '' ui ( si , si ) ui ( si , si ) si
称为局中人甲的一个混合策略,即局中人甲选择 策略si的概率为xi 。 同理可定义乙的混合策略。