(数学建模教材)7第七章对策论
对策论讲义

对策论讲义对策论【教学内容】对策论的基本概念,纳什均衡,矩阵对策,二人的无限零和对策,有限的二人非零和对策,n人合作型对策与n人合作型对策。
【教学要求】要求学生理解对策论的基本概念,掌握矩阵对策的求解方法;理解纳什均衡的概念及相应的求解方法、理解二人的无限零和对策及有限的二人非零和对策问题,了解n人合作型对策与n人合作型对策。
【教学重点】对策论的基本概念、矩阵对策及求解、纳什均衡与求解、二人的无限零和对策,有限的二人非零和对策。
【教学难点】建立对策的模型求解。
【教材内容及教学过程】对策论来自于生活。
简单的问题如游戏,决策者的策略对最终结果有着举足轻重的影响,但决策者的策略选择也要考虑其它策略者的策略选择,现实生活中一个坏的策略选择未必带来坏的结果(原因是他方选择了对自己不利,对前者有利的策略),对策论的研究中排除了对方犯错误的可能性,每个决策者都在考虑到他方的各种策略后,选择对自己最有利的策略。
对策论解决的问题大的象经济生活中的经营决策、市场竞争,政治、军事活动中的竞选、谈判、联合和战争等,从这点来说对策论大有用武之地。
本章先介绍了对策论的基本概念,然后通过例子介绍了纳什均衡的概念及求解方法,重点介绍了二人零和对策(矩阵对策)与求解,接着介绍二人的无限零和对策、有限的二人非零和对策。
最后介绍n人合作型对策与n人合作型对策,目的是让学生通过本章学习,对其基本方法有所掌握与了解,为以后的实际应用打好基础。
i.§1.1 对策的三要素第一节引言从前述可看出对策论是研究具有斗争或竞争性质现象的数学理论和方法。
根据不同性质的问题,可建立不同的对策模型。
尽管对策模型的种类可以千差万别,但本质上都必须包含3个基本要素:1.局中人局中人即在一个对策行为中,有权决定自己行动方案的对策参加者。
通常用I表示局中- 1 -人的集合,如果有n个局中人,则I=?1,2,3,…n两个局中人。
?。
一般要求一个对策中至少要有对策中关于局中人的概念是广义的。
对策模型

0.12m 0.42=0.611 m=0
设三人中靶的概率分别为 0.6,0.5,0.4。 , , 。
P(无胜者 无胜者)=1-P(甲获胜 甲获胜)-P(乙获胜 获胜)-P(丙获胜 获胜) 无胜者 甲获胜 =1-0.097-0.136-0.611=0.156
•由上可知三人获胜的概率分别是 0.097,0.136,0.611(无胜 由上可知三人获胜的概率分别是 无胜 者的概率是0.156); 者的概率是 •可见这是一种不公平的竞赛。这是“鹬蚌相争、渔人得 可见这是一种不公平的竞赛。这是“鹬蚌相争、 可见这是一种不公平的竞赛 的竞争。在自然界里,有时弱者反而生存下来, 利”的竞争。在自然界里,有时弱者反而生存下来,就类 似这种情形. 似这种情形
A 的 策 略 低 价 低 价 高 价 高 价
A 的策略 低价 低价 高价 高价
B 的策略 低价 高价 低价 高价
A 的利润 A :5 万 A :9 万 A :3 万 A :7 万
B 的利润 B :3 万 B :2 万 B :6 万 B :5 万
•两个企业竞争的结果是怎样的呢? 两个企业竞争的结果是怎样的呢? 两个企业竞争的结果是怎样的呢 A的想法 的想法 •如果 实行低价,那么我应该实行低价才能获取较高利润 如果B实行低价 如果 实行低价, 如果B实行高价 (5万),如果 实行高价,那么我也应该实行低价才能 万),如果 实行高价, 获取较高利润( 万)。因此 因此, 获取较高利润(9万)。因此,他决定实行低价。 B的想法 的想法
•不难说明 每个射手的最优策略是首先进攻较强的对手 不难说明,每个射手的最优策略是首先进攻较强的对手 不难说明 每个射手的最优策略是首先进攻较强的对手. •假设游戏规则为:每轮打靶时大家同时射击 并且首先进攻 假设游戏规则为 每轮打靶时大家同时射击 假设游戏规则 每轮打靶时大家同时射击,并且首先进攻 较强的对手;即 甲应先向乙射击 甲应先向乙射击,乙 丙应先向甲射击. 较强的对手 即:甲应先向乙射击 乙、丙应先向甲射击
数学建模论文(对策论)定稿

LF2011080006对策论的浅谈河北省廊坊市管道局中学初二(1)班乔子涵指导老师:苏秀珍摘要:对策论是现代数学的一个重要分支,在军事、公安、经济和日常生活各个方面,都很有用处。
以解决一个侦查员跟踪间谍的事件做切入点,将“石头剪子布”游戏作为数学模型,引入表上游戏与混合策略,利用数学方法解决实际的对策论问题。
关键词:对策论;表上游戏;混合策略。
一、问题的提出侦查员小王接到命令,去跟踪一个重要的间谍“熊”。
现在,“熊”在一间密室里和另外两个间谍碰头。
小王只知道“熊”是3个人中最高的一个,但是无法看到他们3个人碰头的情况,因而也不知道3个人中哪个身材最高。
小王只能在门口等待他们出来。
他想:这三个间谍如果不一块出来,可能最先出来的是“熊”,也可能最后出来的是“熊”,也可能中间那一个是“熊”,我应该跟踪哪一个呢?3个间谍在密室里也考虑呢,为了防备外面有人盯梢,谁先出去好呢?这就是一个对策论的问题。
对策论是现代数学的一个重要分支,在军事、公安、经济和日常生活各个方面,都很有用处。
由于对策论经常用智力游戏——打扑克、下棋等做模型,所以又叫博弈论。
博就是赌博,弈就是下棋。
其实,赌博如果去掉输赢财物的规定,就是智力游戏。
一般的对策问题都是这样:双方各有一些可以采取的策略,一旦双方的策略都确定了,就会出现一定的结果,问题是双方怎样找到最好的策略?二、问题的分析与建模我们平时玩的“石头、剪子、布”手势游戏,就可以作为对策论的一个例子:在这个问题里,甲和乙各有3种可以采取的策略。
结果如何?我们列出一个输赢表来。
这是甲的得分表。
“0”表示平局,“-1”表示输,“1”表示赢。
我们把对策论问题列成这样的表,就成了“表上游戏”。
这种表是由若干行和若干列数字组成。
甲可以指定其中的某一横行,乙可以指定其中的某一直行。
规定他们同时说出他们指定的横行和直行。
在这两行的交叉点上的数,就是甲得到的分数。
例如在这个表格里:0 1 -1-1 0-1 1 01如果甲指定第一横行,乙指定第一直行,甲就得到0分,也就是说平局。
对策论

在日常生活中,经常可以看到一些具有相互斗 争或竞争性质的行为,
如下棋、打牌、体育比赛等 还有企业间的竞争、军队或国家间的战争、政治斗 争等,都具有对抗的性质。
这种具有竞争或对抗性质的行为称为对策行为。
在这类行为中,各方具有不同的目标和利益。为实 现自己的目标和利益,各方必须考虑对手可能采取 的行动方案,并力图选择对自己最为有利或最为合 理的行动方案。
在田忌赛马中
局中人集合I={1,2}
齐王和田忌的策略集合可分别用S1={α1,…,α6}, S2={β1,…,β6}
齐王的任一策略αi和田忌的任一策略βj就构成了一个 局势sij
如果α1 =(上,中,下), β1 =(上,中,下), 则在局势s11下,齐王的赢得为H1(s11)=3,田忌的赢 得为H2(s11)=-3
6 1 8 3 2 4 A 9 1 10 3 0 6
局中人Ⅰ当然也会猜到局中人Ⅱ的这种心理,转而出α4来对 付,使局中人Ⅱ得不到10,反而失掉6; …… 如果双方都不想冒险,都不存在侥幸心理,而是考虑到对方 必然会设法使自己所得最少这一点,就应该从各自可能出现 的最不利情形中选择一个最有利的情形作为决策一句。 这就是所谓的“理智行为”,也是对策双方实际上可以接收 并采取的一种稳妥的方法。
对策问题举例:市场购买力争夺问题
据预测,某乡镇下一年的饮食品购买力将有4000万元。乡镇企 业和中心城市企业饮食品的生产情况是:乡镇企业有特色饮食品 和一般饮食品两类,中心城市企业有高档饮食品和低档饮食品两 类产品。他们购买这一部分购买力的结局表如下。
乡镇企业所得(万元)
乡镇企业 的策略 出售特色饮食品
即局中人Ⅰ、Ⅱ的策略集分别为
对策论(Theory of Games)

队。
在对策中总是假定每一个局中人都是理智 的,聪明的决策者或竞争者,即对任一局 中人来讲,不存在利用其它局中人决策的 失误,来扩大自身利益的可能性。 通常用I表示局中人的集合,如果有n个局 中人,则I={1,2……n},一般要求一个对
齐得分 齐 上中 下
田
上中下 3
上下中 1 中上下 1
中下上 1
下中上 1
下上中 -1
上下 中上 中下
11 3 -1 13 11 -1 1 11
中下 上
-1 1 1 3 1 1
下中 上
1 1 -1 1 3 1
下上 中
1 1 1 -1 1 3
下面为齐王在各种局势下赢得千金的数值
3 1 1 1 1 -1 1 3 1 1 -1 1 A= 1 -1 3 1 1 1 -1 1 1 3 1 1 1 1 -1 1 3 1 1 1 1 -1 1 3
注意
• 当各局中人选定了自己的策略后,竞争 的结果就确定了,而且该结果是量化的。 对每一方而言可能是得也可能是失。我 们用支付来描述量化的得失。
• 支付又可称为赢得。这赢得应从广义上 去理解,可能为正也可能为负。
• 一个局中人得到的赢得或支付不一定就 是从对方来,即不一定是你赢我就输。 可能是双方都有利,即其赢得可能双方 都为正。如,进行贸易谈判的双方其结 局往往是对双方都有利。
这个问题是两人有限零和对策,即矩阵对 策。我们可以列出甲、乙两人在一局比 赛中的各种局势下的赢输分数。因为这 是零和对策,故只需知道甲、乙任何一 方在各种局势下的分数,就能够知道对 分的情况了。甲、乙两人在各种局势下 的得分情况如表所示
电子课件第七章

7.3.1 矩阵对策(两人有限零和对策)的表示
一般地:用Ⅰ、Ⅱ表示两个局中人,局中 人Ⅰ有m个策略,即α1,α2,…,αm;局中人Ⅱ有n 个策略,即β1,β2,…,βn。
当Ⅰ选取策略αi,Ⅱ选取策略βj,就形成 一个局势(αi,βj),这时局中人Ⅰ的收益为 aij,局中人Ⅱ的收益为aij(共有mn个局势)。 矩阵A (a ij)称为局中人Ⅰ的收益矩阵,即
7.1 引言
在实际生活中,许多游戏都反映了对策论 的思想。例如,在人们非常熟悉的“石头、剪 刀、布”的游戏中,我们的问题是:对方如何 行动,而我又将如何应对才能取得胜利?这实 际上就涉及到了对策论的核心问题,即对策论 以对方的行为作为自己决策的依据,并寻求最 佳。但对策论不仅仅是指游戏,它研究的是当 人们的行为存在相互作用时的策略行为及其后 果。社会生活中的许多现象,都带有相互竞争 与合作的特征,可以说,一切都在博弈或对策 之中。
7.3.2 矩阵对策 (两人有限零和对策)的纯策略
同样,局中人Ⅱ采取策略β1、β2、β3时,他 的损失分别为(对应列的最大元素)9、2、6。 因此,他的最优策略(按min max准则)是β2, 可保证损失不超过2。
结果,局中人Ⅰ按max min准则选取策略α2, 局中人Ⅱ按min max准则选取β2,双方都得到 了他们预想的收益,这是一种最稳妥的行为。 我们把称(α2, β2)称为对策G的最优局势。
10
3 0 6
试研究双方策略。
7.3.2 矩阵对策 (两人有限零和对策)的纯策略
解 由A可以看出,局中人Ⅰ的最大收益值是9, 要想达到这个目的,他就得选策略α3。然而局 中人Ⅱ也在考虑,因为局中人Ⅰ有出α3的心理 状态,要想使自己有较大的赢得,就想选β3作 为对策。这样不仅不能使局中人Ⅰ得到9,反 而会失去10(即得10)。同样,局中人Ⅰ也 会想Ⅱ有出β3的可能,于是Ⅰ想出α4来对付Ⅱ, 使他不但得不到10反而输掉6,等等。
对策论

对策的三要素: 对策的三要素:
局中人: 局中人:有权决定自己行为方案的对局参加者
称为局中人。案例中,敌我双方的决策者为局中 称为局中人。案例中, 当对局中局中人只有两人时,称为二人对策。 人。当对局中局中人只有两人时,称为二人对策。
策略: 策略:对局中一个实际可行的方案称为一个策
略。案例中,敌我双方各有二个策略。 案例中,敌我双方各有二个策略。
经测算,双方均可得到如下估计: 经测算,双方均可得到如下估计:
局势1 局势1:
盟军的侦察机重点搜索北线,日本舰 盟军的侦察机重点搜索北线, 队也恰好走北线。由于气候恶劣,能见度差, 队也恰好走北线。由于气候恶劣,能见度差,盟 军只能实施两天的轰炸。 军只能实施两天的轰炸。
局势2 盟军的侦察机重点搜索北线, 局势2:盟军的侦察机重点搜索北线,日本舰
定理7 定理7-1:矩阵对策 G = { S1,S2;A}
在纯策略意义下有解的充分必要条件是:存在 在纯策略意义下有解的充分必要条件是: 一个局势( ),使得对一切 一个局势( α*i*, β*j *),使得对一切 =1, j=1, i=1,2,… m, j=1,2…n 均有 aij*≤ai*j* ≤ ai*j
矩阵对策的最优纯策略
设定 最稳妥策略 对策的解 例子
设
两人有限零和对策
局中人: 局中人:两人 策略集: 策略集
定
S 1 = {α 1 , α 2 ,..., α m } S 2 = { β 1 , β 2 ,..., β n }
局势集: 局势集: S1 × S 2 = {(α i , β j ) i = 1,2,..., m; j = 1,2,..., n} 支付函数: 支付函数:H 1 (α i , β j ) = a ij 和 H 2 (α i , β j ) = − a ij
对策论

·实验5 对策论一、实验目的1、了解对策论建模的方法和模型的算法;2、了解带线性规划的基本原理和解法;3、掌握Matlab 优化工具箱求解线性规划的基本用法;二、实验要求掌握对策论建模的方法以及如何用MATLAB 去实现;能够掌握Matlab 优化工具箱中linprog 的基本用法,能够对控制参数进行设置,能够对不同算法进行选择和比较。
三、实验内容1.主要命令和注意事项线性规划模型:min z=cX..s t AX b £Aeq Xbeq ?VLB ≤X ≤VUB在Matlab 中可通过linprog 函数来实现,其调用形式为:[1] x=linprog (c ,A ,b ,Aeq,beq, VLB ,VUB ) [2] x=linprog (c ,A ,b ,Aeq,beq, VLB ,VUB, X 0)[3] [x,fval,exitflag,output,lambda]=linprog (c ,A ,b ,Aeq,beq, VLB ,VUB, X 0,options )返回最优解x及x处的目标函数值fval. 注意:[1] 若没有等式约束:Aeq X beq ?, 则令Aeq=[ ], beq=[ ].[2]其中X 0表示初始点例 max 1234560.40.280.320.720.640.6z x x x x x x =+++++123456..0.010.010.010.030.030.03850s t x x x x x x +++++ 140.020.05700x x + 250.020.05100x x + 360.030.08900x x +1,2,6j x j ?解 编写M 文件如下:c=[-0.4 -0.28 -0.32 -0.72 -0.64 -0.6];A=[0.01 0.01 0.01 0.03 0.03 0.03;0.02 0 0 0.05 0 0;0 0.02 0 0 0.05 0;0 0 0.03 0 0 0.08];b=[850;700;100;900];Aeq=[]; beq=[];vlb=[0;0;0;0;0;0]; vub=[];[x,fval]=linprog(c,A,b,Aeq,beq,vlb,vub)2.实验内容(1)求解线性规划123min 542z x x x =-++ 123.. 68s t x x x -+123 2410x x x ++ 1 -13x # 202x #30x ³.(2)求解线性规划12max 64z x x =+ 12.. 23100s t x x + 12 42120x x + 12,0x x ³.(3)P94 ex6安徽师范大学数计 学院实验报告专业名称数学与应用数学实验室2号实验楼#201 实验课程Matlab实验名称对策论姓名张顺强学号100701185同组人员无实验日期2013.4.10。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七章 对策论§1 引言社会及经济的发展带来了人与人之间或团体之间的竞争及矛盾,应用科学的方法来 解决这样的问题开始于 17 世纪的科学家,如 C.,Huygens 和 W.,Leibnitz 等。
现代对 策论起源于 1944 年 J.,V on Neumann 和 O.,Morgenstern 的著作《Theory of Games and Economic Behavior 》。
对策论亦称竞赛论或博弈论。
是研究具有斗争或竞争性质现象的数学理论和方法。
一般认为,它既是现代数学的一个新分支,也是运筹学中的一个重要学科。
对策论发展 的历史并不长,但由于它所研究的现象与人们的政治、经济、军事活动乃至一般的日常 生活等有着密切的联系,并且处理问题的方法又有明显特色。
所以日益引起广泛的注意。
在日常生活中,经常看到一些具有相互之间斗争或竞争性质的行为。
具有竞争或对 抗性质的行为称为对策行为。
在这类行为中。
参加斗争或竞争的各方各自具有不同的目 标和利益。
为了达到各自的目标和利益,各方必须考虑对手的各种可能的行动方案,并 力图选取对自己最为有利或最为合理的方案。
对策论就是研究对策行为中斗争各方是否 存在着最合理的行动方案,以及如何找到这个合理的行动方案的数学理论和方法。
§2 对策问题对策问题的特征是参与者为利益相互冲突的各方,其结局不取决于其中任意一方的 努力而是各方所采取的策略的综合结果。
先考察一个实际例子。
例 1(囚徒的困境) 警察同时逮捕了两人并分开关押,逮捕的原因是他们持有大 量伪币,警方怀疑他们伪造钱币,但没有找到充分证据,希望他们能自己供认,这两个 人都知道:如果他们双方都不供认,将被以持有大量伪币罪被各判刑 18 个月;如果双 方都供认伪造了钱币,将各被判刑 3 年;如果一方供认另一方不供认,则供认方将被从 宽处理而免刑,但另一方面将被判刑 7 年。
将嫌疑犯 A 、 B 被判刑的几种可能情况列 于表 1。
表 1表 1 中每对数字表示嫌疑犯 A 、B 被判刑的年数。
如果两名疑犯均担心对方供认并希 望受到最轻的惩罚,最保险的办法自然是承认制造了伪币。
从这一简单实例中可以看出对策现象中包含有的几个基本要素。
2.1 对策的基本要素(i )局中人 在一个对策行为(或一局对策)中,有权决定自己行动方案的对策参加者,称为局 中人。
通常用 I 表示局中人的集合.如果有 n 个局中人,则 I = {1,2,L , n }。
一般要求 一个对策中至少要有两个局中人。
在例 1 中,局中人是 A 、B 两名疑犯。
(ii )策略集 一局对策中,可供局中人选择的一个实际可行的完整的行动方案称为一个策略。
参 加对策的每一局中人 i , i ∈ I ,都有自己的策略集 S i 。
一般,每一局中人的策略集中 至少应包括两个策略。
-154-嫌疑犯 B供认不供认 嫌疑犯 A供认不供认(3,3) (0,7) (7,0) (1.5,1.5)(iii )赢得函数(支付函数)在一局对策中,各局中人所选定的策略形成的策略组称为一个局势,即若 s i 是第 i 个局中人的一个策略,则 n 个局中人的策略组s = (s 1 , s 2 ,L , s n )就是一个局势。
全体局势的集合 S 可用各局中人策略集的笛卡尔积表示,即S = S 1 ⨯ S 2 ⨯L ⨯ S n当局势出现后,对策的结果也就确定了。
也就是说,对任一局势, s ∈ S ,局中人 i 可以得到一个赢得 H i (s ) 。
显然, H i (s ) 是局势 s 的函数,称之为第 i 个局中人的赢 得函数。
这样,就得到一个向量赢得函数 H (s ) = (H 1 (s ),L , H n (s )) 。
本节我们只讨论有两名局中人的对策问题,其结果可以推广到一般的对策模型中 去。
2.2 零和对策(矩阵对策) 零和对策是一类特殊的对策问题。
在这类对策中,只有两名局中人,每个局中人都只有有限个策略可供选择。
在任一纯局势下,两个局中人的赢得之和总是等于零,即双 方的利益是激烈对抗的。
设局中人Ⅰ、Ⅱ的策略集分别为 S 1 = {α1 ,L ,αm }, S 2 = {β1 ,L , βn } 当局中人Ⅰ选定策略αi 和局中人Ⅱ选定策略 β j 后,就形成了一个局势 (αi , β j ) ,可见 这样的局势共有 mn 个。
对任一局势 (αi , β j ) ,记局中人Ⅰ的赢得值为 a ij ,并称ϒ a 11 'a a 12 a 1n / LL L L∞ a a A = ' 2n ∞ 2122' L ≤a m 1L ∞ a mn ƒL a m 2 ' ∞ 为局中人Ⅰ的赢得矩阵(或为局中人Ⅱ的支付矩阵)。
由于假定对策为零和的,故局中 人Ⅱ的赢得矩阵就是 - A 。
当局中人Ⅰ、Ⅱ和策略集 S 1 、 S 2 及局中人Ⅰ的赢得矩阵 A 确定后,一个零和对策 就给定了,零和对策又可称为矩阵对策并可简记成G = {S 1 , S 2 ; A } 。
例 2设有一矩阵对策 G = {S 1 , S 2 ; A } ,其 中 S 1 = {α1 ,α2 ,α3} ,S 2 = {β1 , β2 , β3 , β4 } ,ϒ 12 - 6 2 0 30 18 - 10- 22/ ∞ A = ' 14 10 ''≤- 6 ∞ 16 ∞ƒ从 A 中可以看出,若局中人Ⅰ希望获得最大赢利 30,需采取策略α1 ,但此时若局中人Ⅱ采取策略 β4 ,局中人Ⅰ非但得不到 30,反而会失去 22。
为了稳妥,双方都应考 虑到对方有使自己损失最大的动机,在最坏的可能中争取最好的结果,局中人Ⅰ采取策 略α1、α2、α3 时,最坏的赢得结果分别为-155-min{12,-6,30,-22} = -22 min{14,2,18,10} = 2 min{-6,0,-10,16} = -10其中最好的可能为 max{-22,2,-10} = 2 。
如果局中人Ⅰ采取策略 α2 ,无论局中人Ⅱ采取什么策略,局中人Ⅰ的赢得均不会少于 2。
局中人Ⅱ采取各方案的最大损失为 max{12,14,-6} = 14 , max{-6,2,0} = 2 ,max{30,18,-10} = 30 ,和 max{-22,10,16} = 16 。
当局中人Ⅱ采取策略 β2 时,其损失不会超过 2。
注意到在赢得矩阵中,2 既是所在行中的最小元素又是所在列中的最大 元素。
此时,只要对方不改变策略,任一局中人都不可能通过变换策略来增大赢得或减 少损失,称这样的局势为对策的一个稳定点或稳定解。
定义 1 设 f ( x , y ) 为一个定义在 x ∈ A 及 y ∈ B 上的实值函数,如果存在 x *∈ A ,y *∈ B ,使得对一切 x ∈ A 和 y ∈ B ,有f ( x , y *) ≤ f ( x *, y *) ≤ f ( x *, y )则称 ( x *, y *) 为函数 f 的一个鞍点。
定义 2 设 G = {S 1 , S 2 ; A } 为矩阵 对策,其 中 S 1 = {α1 ,α2 ,L ,αm } , S 2 = {β1 , β2 ,L , βn }, A = (a ij )m ⨯n 。
若等式max min a ij = min max a ij = a i * j *(1)i j j i成立,记V G = a i * j * ,则称V G 为对策 G 的值,称使(1)式成立的纯局势 (αi * , β j * )为对策 G 的鞍点或稳定解,赢得矩阵中与 (αi * , β j * ) 相对应的元素 a i * j * 称为赢得矩阵的鞍 点,αi * 与 β j * 分别称为局中人Ⅰ与Ⅱ的最优纯策略。
给定一个对策 G ,如何判断它是否具有鞍点呢?为了回答这一问题,先引入下面定理 1 设 G = {S 1, S 2 ; A } ,记 μ = max min a ij , ν = - min max a ij ,则必有ijjiμ +ν ≤ 0 。
证明 ν = max min(-a ij ) ,易见 μ 为Ⅰ的最小赢得,ν 为Ⅱ的最小赢得,由于 G j i是零和对策,故 μ +ν ≤ 0 必成立。
定理 2 零和对策 G 具有稳定解的充要条件为 μ +ν = 0 。
证明:(充分性)由 μ 和ν 的定义可知,存在一行例如 p 行,μ 为 p 行中的最小元 素,且存在一列例如 q 列, -ν 为 q 列中的最大元素。
故有a pq ≥ μ 且 a pq ≤ -ν又因 μ +ν = 0 ,所以 μ = -ν ,从而得出 a pq = μ , a pq 为赢得矩阵的鞍点,(α p , βq ) 为 G 的稳定解。
(必要性)若 G 具有稳定解 (α p , βq ) ,则 a pq 为赢得矩阵的鞍点。
故有μ = max min ≥ min = a pqa ij a pj i jj -ν = min max ≤ max = a pq a ij a iq j i i-156-从而可得 μ +ν ≥ 0 ,但根据定理 1, μ +ν ≤ 0 必成立,故必有 μ +ν = 0 。
上述定理给出了对策问题有稳定解(简称为解)的充要条件。
当对策问题有解时, 其解可以不唯一,当解不唯一时,解之间的关系具有下面两条性质:性质 1 无差别性。
即若 (α , β ) 与 (α , β ) 是对策G 的两个解, 则必有 i 1 j 1 i 2 j 2 a i j 1 1 = a i j 。
2 2性质 2 可交换性。
即若 (α , β ) 和 (α , β ) 是对策 G 的两个解,则 (α , β ) 和i 1 j 1 i 2 j 2 i 1 j 2 (α , β ) 也是解。
i 2 j 1 §3 零和对策的混合策略具有稳定解的零和问题是一类特别简单的对策问题,它所对应的赢得矩阵存在鞍 点,任一局中人都不可能通过自己单方面的努力来改进结果。
然而,在实际遇到的零和 对策中更典型的是 μ +ν ≠ 0 的情况。
由于赢得矩阵中不存在鞍点,此时在只使用纯策 略的范围内,对策问题无解。
下面我们引进零和对策的混合策略。
设局中人Ⅰ用概率 x i 选用策略 αi ,局中人Ⅱ用概率 y j 选用策略 β j ,m∑ x i n= ∑ y j= 1 ,记 x = (x 1,L , x ) , y = ( y 1,L , y n)TT,则局中人Ⅰ的期望赢得为mi =1j =1E (x , y ) = x T Ay 。
记**S :策略α1 ,L ,αmS :策略β1 ,L , βn1 2 x 1 ,L , x my 1 ,L , y n概率 概率分别称 S *与S *为局中人Ⅰ和Ⅱ的混合策略。