第十章 对策论1
对策论浅谈

对策论浅谈136410107 赵芳 13数学与应用数学(基地班)一.前言对策论,经济管理中亦称博弈论,是运筹学的一个重要分支,研究对象是带有对抗性质的模型,它的中心问题是:什么是对策的解和解的存在性以及如何求解。
在现实生活中,我们经常会遇到带有竞争性质的现象,例如下棋、打扑克、体育比赛、军事斗争等。
这类现象的共同特点是参与者往往是利益互相冲突的双方或多方,而对抗的结局并不取决于某一方所选择的策略,而是由双方或者多方所选择的策略决定。
这类带有对抗性质的现象称为“对策现象”。
对策论发展的历史并不长,但由于它所研究的现象与人们的政治、经济、军事活动乃至一般日常生活等有着密切的联系,并且处理问题的方法有明显的特色,所以日益引起广泛重视。
而我本身又十分喜欢去解决带有博弈性质或者是需要被优化的问题,所以这次的运筹学小论文我就选择了“对策论”板块。
在早期,研究对策论的学者几乎全是数学家,但由于对策论涉及领域广泛,今天有许多来自各个领域的专家学者都开始对对策论进行研究探索,特别是经济学家和军事家。
我国古代早就孕育着对策论的朴素思想,战国时期的“齐王赛马”就是一个典型的对策论例子。
这也是我们课本教材的一个例子,同时也有学者发表论文再次对这个例子进行讨论(参考文献①)。
对策论按照不同的分类方式可以分成很多类,有非合作和合作对策,二人或多人对策,静态对策和动态对策等。
最近,我们刚刚学习了两人零和对策矩阵,很疑憾教材(参考文献②)上只是了解了实值矩阵对策,那若是赢得矩阵的元素只能确定在一个区间内,而不是具体的数值呢?而我现在就稍微深入一下,进一步介绍一下区间支付两人零和矩阵对策。
二.两人零和矩阵对策(1)定义定义2.1.1设n R 为n 维欧氏空间,n R +是它的非负集合,n m R A ⨯∈为实矩阵。
称mS ≤Γ, n S A >为常规两人零和矩阵对策,其中{}1,=∈=+x e R x S T m m 为局中人I 的策略集,{}1,=∈=+y e R y S T m n 为局中人J 的策略集,A 为支付矩阵。
对策论概述

对策论对策论是对决策者之间的行为的相互影响的研究。
因为对对策论的研究特别强调决策者行为的理性,在过去的二十年间,对策论已被广泛地应用于经济学中。
确实大多数经济行为能够被看成是对策论的一个特殊的情形。
5.1 对策的描述一个对策是对许多决策者的行为的相互影响的正式的表示。
行为的相互影响意思是每一个人的福利不仅依赖她自己的行为而且依赖其他人的行为。
而且她可能采取的最好的行为依赖于她对其他人的行为的预期。
要想完整地描述一个对策,我们必须知道以下四件事情:(1)局中人:有那些人卷入该对策?(2)规则:谁什么时候行动?当他们行动时他们知道什么?他们能干什么?(3)结果:对于局中人的每一组行为,对策的结果是什么?(4)报酬:局中人关于各种可能的结果的偏好(也即效用函数)是什么?例子5.1.1:配对的便士(A)局中人:这里有两个局中人,分别记为1和2。
规则:两个局中人同时抛下一个便士,要么正面向上要么反面向上。
结果:如果两个便士是配对的(要么两个正面向上要么两个反面向上),那么局中人1付一元钱给局中人2;否则,局中人2付一元钱给局中人1。
报酬:每个局中人的报酬简单地等于她得到的或失去的钱的数量。
一般地,这里有两种方法描述一个对策:策略(规范)形式的表示和扩展形式的表示。
5.1.1 一个对策的策略(规范)形式表示假设这里有有限个局中人,局中人的集合为},,2,1{I 。
每一个局中人i ∈},,2,1{I 有一个策略集,记为i S 。
在一个-I 人对策中,局中人的策略组合用一个向量表示为},,{1I s s s =,这里i s 是局中人i 的策略选择。
有时我们也把策略组合s 表示成),(i i s s -,这里i s -是除了局中人i 以外的)1(-I 个局中人的策略组合。
对于每一个策略组合},,{1I s s s =,局中人i 的效用函数为),,(1I i s s u 。
一个-I 人对策的规范形式的表示记为)}]({},{,[⋅=Γi i N u S I 。
对策论(全)

例:公共产品的供给博弈
如果大家都出钱兴办公用事业,所有人的福 利都会增加。问题是,如果我出钱你不出钱, 我得不偿失;而如果你出钱我不出钱,我就可 以占便宜。
最终结果:每个人都“不出钱”。这种纳什 均衡使得所有的人的福利都没法得到提高。
例:寡头垄断企业定价的博弈
卡特尔价格不是纳什均衡, 最终结果:每个企业按照纳什均衡的价格进行定价, 其利润小于卡特尔价格条件下的利润。
生活中的例子
囚徒困境现象在现实生活中比比皆是。姜昆和 唐杰忠过去说过一个公共楼道占用问题的相声。 住户在公共楼道里堆满了杂物,结果大家都极 不方便,以致即将分娩的妇女都没法及时被送 往医院。但你如果不占用公共楼道,别人也会 占用。每一居住面积狭小的住户从自我利益最 大化出发,都会选择占用。但占用的结果却最 终损害了大家的利益。
但是,尽管政府当时无力制止这种事情,公众也不 必担心彩电价格会上涨。这是因为,“彩电厂商自 律联盟”只不过是一种“囚徒困境”,彩电价格不 会上涨。在高峰会议之后不到二周,国内彩电价格 不是上涨而是一路下跌。这是因为厂商们都有这样 一种心态:无论其他厂商是否降价,我自己降价是 有利于自己的市场份额扩大的。 问题:明确该对策问题的各要素:局中人、策略集、 赢得矩阵
等待
4, 4 0, 0
3.中国的游戏——“剪刀、石头、布”
小孩A与B猜手,若规定赢得1分,平得0分, 输得 -1分,则 A的赢得可用下表来表示。
赢 B 石头 A 石头
剪子
布
0
1
-1
剪子
布
-1
1
0
-1
1
0
分析:无确定最优解,可用“混合策略”求解。
4.齐王赛马
战国时期,齐国国王有一天提出要与大将军田忌赛马。田 忌答应后,双方约定: 1)每人从上中下三个等级中各出一匹马,共出三匹; 2) 一共比赛三次,每一次比赛各出一匹马; 3) 每匹被选中的马都得参加比赛,而且只能参加一次; 4) 每次比赛后输者要付给胜者一千金。 当时在三个不同等级中,齐王的马要比田忌的强些,看来 田忌要输三千金了,但由于田忌采用了谋士的意见,最终 反败为胜。谋士的主意是: 1) 每次比赛前先让齐王说出他要出哪匹马; 2) 让田忌用下马对齐王上马; 3) 用中马对齐王下马; 4) 用上马对齐王中马。
10矩阵对策

其意义是: 其意义是 : 甲在每个乙的策略下的期望赢得 都不少于V 都不少于V
17
1.基本概念 1.基本概念
同样, 为乙的最优损失, 为用策略i 同样 , 设 U 为乙的最优损失 , yi 为用策略 i 的概 则有: 率,则有:
3. 混合策略 b1 b2 例4 a1 7 4 A= a2 3 6
max 7 6 min min 4 3 找不到鞍点, 找不到鞍点, 因此在纯策略 意义下无解 max
解决办法: 解决办法:双方只能以某一 概率选取自己的策略, 概率选取自己的策略,所以 叫混合策略
13
1.基本概念 1.基本概念
12
− 1 − 1 − 1 1 − 1
1
−1 −3 −1 −1 −1 1
1
1 −1 −3 −1 −1 −1
1
−1 1 −1 −3 −1 −1
1
−1 −1 1 −1 −3 −1
1
− 1 − 1 − 1 1 − 1 − 3
1 无纯策略
1.基本概念 1.基本概念
max V
s.t.
∑a
i =1 m
i =1
m
ij
x i ≥ V , j = 1,2,..., n
=1
16
∑x
i
xi ≥ 0, i = 1,2,..., m
1.基本概念 1.基本概念
例如,上例中, 为甲的最优赢得, 例如,上例中,设V为甲的最优赢得,xi为用策 的概率,则有: 略i的概率,则有:
对策论证明

********1111111111min minnjj j n j i ij in ij j i i j i j i n m mjmn mj a a a a a a a a a a a a a a a a a =⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦**21111111111111min max max min min min max max max maxnm ij j i nij m nij j i ni j j n mj j mmmmi ijin ij i i i i a v a a v a a a a a a ============⎫⎪⎪⎪⎪⎪⎪⎪=⎬⎪⎪⎪⎪⎪⎪⎪⎭则下面结论成立:1)211111minmax max min nmmnij ij j j i i v a a v =====≥=。
2)若211111min max max min n m m nij ij j j i i v a a v =======,则存在最优纯策略,且最优纯策略为 **1111arg min max ;arg max min n m m nij ij j j i i j a i a ======3)若211111min max max min n m m nij ij j j i i v a a v =====>=,则存在混合策略,且最优混合策略利用线性规划求解。
证明 因为对任意1,2,,,1,2,,i m j n ==有,1)就列而言,ij a 小于等于第j 列的最大元素,即1max mij ij i a a =≤;2)就行而言,ij a 大于等于第i 行的最小元素,即1minn ij ij j a a =≥。
1max mij ij i a a =≤说明第j 列的各元素满足关系 *11111max max max max mj iji m ij iji miji j i mmj iji a a a a a a a a ====≤≤≤≤ (1)。
第11讲对策论

设有对策G =(S1,S2,A),其中 S1={α1,α2,…,αm}, S2={β1,β2,… , βn}, A=(aij)m×n。 如果A中存在一个元素ark满足:
ark
?
max i
min j
aij
?
min j
max i
aij
则局势(αr ,βk)称为G 的解或鞍点。α*=αr,β*=βk称 为甲、乙的最优纯策略。设G 的值为vG,vG = ark 。
=( S1, S2,A)
本节中我们仅研究二人有限零和对策,即
A1+A2=0
运筹学
第11讲:对策论(一)
3、对策的分类
? 按局中人的数目分类:二人对策,多人对策(诸侯争霸) ? 按策略的数目分类:有限对策,无限对策(警察抓罪犯) ? 按赢得矩阵之和是否为零分类:零和对策,非零和对策(囚 徒困境) ? 按局中人是否合作分类:非合作对策(同类企业竞争),合 作对策(供应链成员,OPEC等)
同理,齐王的策略分别为: β1=(上,中,下);β 2=(上,下,中);β 3=(中,上,下); β 4=(中,下,上);β 5=(下,上,中);β 6=(下,中,上)。
运筹学
第11讲:对策论(一)
策略集:局中人i 所有策略的集合,用Si 表示 例如:设田忌为第1人,i=1;齐王为第2人,i=2。
第11讲:对策论(一)
浙江工业大学经贸管理学院 曹柬
运筹学
第11讲:对策论(一)
一、对策论的基本概念
1、对策现象及其三个要素 (以“田忌赛马”为例)
? 局中人:与对策有直接效用关系的实体(人、集体等)
齐王、田忌、孙膑X 、马X
? 策略:一个局中人对付其他局中人的方法或措施
第十章博弈论初步详解
q1(0.3) 左 4, 6
7,3
q2(0.7) 右 9,1
2,8
所有参与人对对策的选择不再是“纯策略”, 则是“混合策略”:甲(0.6,0.4),乙 (0.3,0.7),一般地甲(p1,p2),乙(q1, q2);概率必须满足:
0 p1, p2, q1, q2 1 p1 p2 1, q1 q2 1
乙厂商
甲 厂 商
上 下
左 4, 6 7,3
右 9,1 2,8
所有参与人对对策的选择都是“确定”的: 若甲(上),乙必选(左),不能选 (右);若甲(下),乙必选(右),不 能选(左); 若乙(左),甲必选(下),不能选 (上);若乙(右),甲必选(上),不 能选(下);
乙厂商
甲 厂 商
P1(0.6) 上 p2(0.4) 下
0 p1, p2, q1, q2 1 p1 p2 1, q1 q2 1
由于概率可以是0~1之 间的任意一个值,期望 支付组合(E甲,E乙)有 无数个,不是4个。
17
4.条件混合策略
利用计算期望支付的公式可以求得甲厂商和乙厂商的
条件混合策略(即具有相对优势的混合策略)。
E甲 p1 q1 4 p1( 1 - q1) 9 (1 - p1) q1 7 (1 - p1) ( 1 -q1) 2 4 p1q1 9 p1 9 p1q1 7q1 - 7 p1q1 2 - 2 p1 2q1 2 p1q1 7 p1 10 p1q1 5q1 2 p1 (7 10q1 ) 5q1 2 E乙 p1 q1 6 p1( 1 - q1) 1 (1 - p1) q1 3 (1 - p1) ( 1 -q1) 8 6 p1q1 p1 p1q1 3q1 - 3 p1q1 8 - 8 p1 8q1 8 p1q1 10 p1q1 8 7 p1 5q1 5q1 (2 p1 1) 8 7 p1
对策论
执教:周爽
田忌赛马
齐国的大将田忌,很喜欢赛马,有一回,他和齐威王约定,进行一 次比赛。 他们把各自的马分成上,中,下三等。比赛的时候,上等马对 上等马,中等马对中等马,下等马对下等马。由于齐威王每个等级的马 都比田忌的强,三场比赛下来,田忌都失败了。田忌觉得很扫兴,垂头 丧气地准备离开赛马场, 这时,田忌发现,他的好朋友孙膑也在人群 里 。孙膑招呼田忌过来,拍着他的肩膀说: “从刚才的情形看,齐威 王的马比你的快不了多少呀。” 孙膑还没有说完,田忌瞪了他一眼: “想不到你也来挖苦我!” 孙膑说:“我不是挖苦你,你再同他赛一次, 我有办法让你取胜。” 田忌疑惑地看着孙膑: “你是说另换几匹马?” 孙膑摇摇头说: “一匹马也不换。” 田忌毫无信心地说: “那还不是 照样得输!”孙膑胸有成竹地说: “你就照我的主意办吧。” 齐威王 正在得意洋洋地夸耀自己马,看见田忌和孙膑过来了, 便讥讽田忌: “怎么,难道你还不服气?” 田忌说:“当然不服气,咱们再赛一次!” 齐威王轻蔑地说: “那就来吧!” 一声锣响,比赛开始了。 孙膑让田 忌先用下等马对齐威王的上等马,第一场输了。接着进行第二场比赛。 孙膑让田忌拿上等马对齐威王的中等马,胜了第二场。 齐威王有点心慌 了。 第三场,田忌拿中等马对齐威王的下等马,又战胜了一场。这下, 齐威王目瞪口呆了。还是原来的马,只是调换了一下出场顺序,就可以 转败为胜。
学说,主要是用数学的方法来研
究在竞争(包括战争、竞技、比
赛等)中是否存在制胜对方的最
优策略。
第一场
齐王 田忌1
第二场
第三场
获胜方
田忌2
田忌3 田忌4 田忌5 田忌6
田忌赛马 第一次比赛
齐王 第一场 第二场 第三场 田忌 获胜方
第十章博弈论(习题)
第十章 博弈论1.图10-A 中策略式表述博弈的纳什均衡是( )。
A .(U ,L ) B .(U ,R ) C .(D ,L )D .(D ,R )参与人BL R参与人AU D图10-A 习题1策略式表述的博弈2.家电市场上有两个厂商:厂商A 和厂商B ,各自都可以选择生产空调和彩电,彼此的利润支付矩阵如图10-B 所示:厂商B彩电空调厂商A彩电 空调图10-B 家电市场上的厂商博弈请问该博弈中有无纳什均衡?如有,哪些是?如果两个彼此合作的结果是什么? 3.在图10-C 所示的策略式表述的博弈中,找出重复剔除的占优均衡。
参与人BLCR参与人AUM D图10-C 寻找重复剔除的占优均衡4.宿舍中有甲乙两个同学,甲发现水壶没有水了,此时若他去打水,将获得的效用是1;若他等待乙去打水,所获效用是3;若两个人一起去,因为可以互相分担,两人所获效用分别为2;若两人都等待对方去打水,所获效用都为0。
乙的效用水平与甲相同。
(1)写出这个博弈的报酬矩阵,这个博弈有纳什均衡吗? (2)若甲(或乙)坚持一个不打水的策略,对此人有好处吗?5.图10-D 是两家烟草公司广告宣传博弈的策略式表述,他们的支付是各自的利润。
烟草公司B 做广告 不做广告烟草公司A做广告 不做广告图10-D (1)找出两家公司的纳什均衡。
(2)1971年,在“禁烟运动”的声势下,美国国会通过了禁止在电视上做烟草广告的法律,令许多人奇怪的是,烟草公司反应相当平静,并没有动用其庞大的社会资源和影响力阻止这个法律的通过。
运用上面的博弈知识分析烟草公司的态度。
6.图10-E 是两个厂商的支付矩阵:厂商B守约违约厂商A守约违约图10-E 厂商违约博弈的策略式表述(1)哪个策略使厂商A 的最大可能损失为最小?厂商B 的是哪个?(2)厂商A 会选择哪一种策略?为什么?如果厂商A 违约,厂商B 会做什么?如果厂商B 违约,厂商A 会做什么?(3)这一对策略最可能出现的结果是什么?为什么?7.A 、B 两个寡头垄断厂商出售同质的产品进行产量竞争,市场对该产品的需求函数为bPa Q -=,两个厂商生产该产品的单位成本都是c 。
第十章决策论
第十章决策论决策是指依照必然的程序、方式和标准,对行动方案的一种选择.决策是人们在政治、经济、技术和日常生活中普遍存在的一种选择方案的行为.决策是管理中常常发生的一种活动.决策就是决定的意思.决策的正确与否会给人们、企业、国家带来受益或损失.若一个企业在生产中发生一次执行的错误,造成产品报废可能是几百或几千元的损失,而在新产品试制中的决策失误可能造成的损失是以百万或万万计的.在国际市场的竞争活动中一个错误决策就可能造成几亿乃至几十亿的损失,乃至致使企业破产.因此,一切失误中决策的失误是最大的失误.关于决策的重要性,诺贝尔奖金取得者西蒙有一句名言“管理就是决策”.这就是说管理的核心是决策.决策是一种选择行为,最简单的选择是回答是与否.例如,选择生产某种新产品仍是不生产.较为复杂的决策是从多种方案当选一.研究决策的学问,并将现代科学技术成绩应用于决策,称之为决策科学.决策科学包括的内容十分普遍:决策心理学,决策的数量化方式,决策的评价和决策支持系统,决策自动化等.本部份主要从运筹学中的定量方式的角度给予介绍.§1 决策的大体概念一、决策的原则由于决策的重要性,要求决策者在决策进程中遵守以下原则:一、决策科学化原则决策科学化,就是要求决策者在作出决策时,必需以科学的资料为依据,依照必然的科学程序和方式,排除个人的猜想、成见或武断.二、决策民主化原则决策民主化,就是指决策应由决策机构集体充分讨论后才能作出,而不该由个人说了算.决策机构集体决策之前应充分发扬民主,普遍听取各方面的意见,群策群力,特别要注意听取不同的乃至反对的意见,并从中吸取合理的部份.3、决策责任制原则决策责任制,就是要求决策者对其决策行为所带来的后果负责.许多决策都带有风险性,只有让参与决策的机构和当事人从各自不同的职位和层次、不同的方面和角度承担与自己的职权相称的风险和责任,才能够减少决策的盲目性、随意性,才能保证决策的严肃性和科学性.二、决策的分类从不同的角度动身可得不同的决策分类.1、按性质的重要性分类.可将决策分为战略决策、策略决策和执行决策.战略决策是涉及某组织进展和生存有关的全局性、久远问题的决策.如厂址的选择、新产品开发方向、新市场的开发、原料供给地的选择等等.策略决策是为完成战略决策所规定的目的而进行的决策.如对一个企业而言,产品规格的选择、工艺方案和设备的选择、厂区和车间内工艺线路的布置等等.执行决策是按照策略决策的要求对执行行为方案的选择.如生产中产品合格标准的选择、日常生产调度的决策等等.2、按决策的结构分类.可分为程序决策和非程序决策.程序决策是一种有章可循的决策,一般是可重复的.程序决策是例行的决策,用于解决生产、管理中常常出现的问题.这种决策一般是有规可循的,能够按规定的程序、模型、参数、标准去向理,有的可用运算机来处置.非程序决策一般是无章可循的决策,只能凭经验直觉作出应变的决策,一般是一次性的.一次性决策要解决的是过去完全没有或仅部份出现过的问题.决策层次越高,一次性决策问题就越多.在一次性决策中,决策者的洞察能力、初创精神和分析方式的科学性往往对决策的效果起着重要的作用.3、按决策目标的数量分类.可分为单一目标决策和多目标决策.单一目标决策问题的特点是在已知条件(约束条件、某种状态发生的概率及对应于各类可能方案的损益值等)下,寻求目标函数的最优解.决策的目标是单一的,一般是收益最大,或支出最小.多目标决策问题是以达到两个以上目标为准进行的择优问题.在实际评价方案时,常常要考虑多个指标.如一项工程的施工方案,要考虑质量优、工期短、费用低等目标,而这些目标之间往往是彼此矛盾的,即在某个目标达到最优时,另一些目标却不佳,如此就需要按照目标的重要程度进行衡量,综合决策.4、按定量和定性分类.可分为定量决策和定性决策.描述决策对象的指标都能够量化时可用定量决策,不然只能用定性决策.总的趋势是尽可能地把决策问题量化.5、按决策环境分类.可分为肯定型、风险型和不肯定型三种.肯定型的决策是指决策环境是完全肯定的,作出的选择的结果也是肯定的.其特征是,只有一个肯定的自然状态,有两个或两个以上的实施方案,各实施方案在肯定条件下的收益值或损失值是能够计算出来的.例如线性计划、动态计划、非线性计划问题等都属于肯定性决策问题.风险型决策是指决策的环境不是完全肯定的,而其发生的概率是已知的.风险型决策也称为随机型决策,其特征是:有两个或两个以上的自然状态,并已知各个自然状态出现的概率或计算概率的条件,和两个或两个以上实施方案在不同状态下收益值或损失值的计算条件.不肯定型决策是指决策者对将发生结果的概率一无所知,只能凭决策者的主观偏向进行决策.它与风险型决策的主要区别在于,前者不明白各个自然状态出现的概率.6、按决策进程的持续性分类.可分为单项决策和序贯决策.单项决策是指整个决策进程只作一次决策就取得结果.序贯决策是指整个决策进程由一系列决策组成.看成了一次决策后,又出现了新问题,又要作第二次决策,……,如此,一次次的决策就组成一个决策序列.三、决策的要素任何决策问题都有以下要素组成决策模型:(1)决策者.决策者的任务是进行决策.决策者能够是个人、委员会或某个组织.一般指领导者或领导集体.(2)可供选择的方案、行动或策略.(3)衡量选择方案的准则.有单一准则和多准则(4)事件.是指不为决策者所控制的客观存在的将发生的状态.(5)结果.每一事件的发生将会产生某种结果,如取得收益或损失.(6)决策者的价值观.如决策者对货币额或不同风险程度的主观价值观念.在决策的诸要素中,决策者在决策中的作用相当重要.因此有必要对决策者进行单独研究.一、决策者在决策中的地位和作用决策者是决策活动的主体.决策者的水平、能力如何,直接影响着各类决策活动的效益和成败.决策者是人,而人的因素相对于物的因素来讲更具有多变性.在整个决策活动中,这种多变性的特点主要反映在决策者的决策思想、决策态度和决策能力上.一样一个人,在不同的精神状态和指导思想下,会作出不同的决策;一样一件事,在思想水平和工作能力不同的决策者领导下,会产生不同的效果.一个水平高、能力强的决策者,会在决策活动中发挥踊跃作用,作出正确、有效的决策;反之,就可能产生消极作用,作出无效的乃至错误的决策.决策者专门是决策领导者,是决策活动成败的关键.决策领导者对于决策的最终定夺称为最终决策.最终决策是具有决定性的决策,它使决策从思想变成行为,从可能变成现实;它要对决策的后果承担直接的责任,因此是一种直接的、责任性的决策.由于在最终决策阶段中,需要领导者最终定夺的方案,往往是多个并存,这些方案又往往互不一致,有的乃至完全对立,而对于方案的论证程度也不同,方案之间没有可比性,从而使得决策的复杂性和艰巨性增加.因此,决策领导者在决策中担负着重大的责任,发挥着重要的作用.二、决策者应有的素质在现实的决策活动中,决策者面对的是几乎永久不会完全相同的决策问题,必需常常进行分析、判断和决策.决策者要在限定的时刻内作出正确的决策显然不是一件容易的事,这就对决策者的素质和能力提出了严格的要求,只有具有较高的决策素质的人材能比较顺利地履行决策者的职能.要成功地履行决策者的职能,作为一个决策者来讲,必需具有较全面的大体素质.(1)追求卓越要成为一个成功的决策者,必需要有远大的目光,有不断进取的精神,有奋发向上的意志.随着时期的进展、社会的进步,新的决策问题必将出现,这就要求决策者紧跟时期的步伐,不断更新和完善自己的知识结构,以进展的目光来看待决策的新问题.(2)较高的熟悉水平面对纷繁复杂的决策问题,决策者要作出正确的决策,就必需具有较高的熟悉水平.第一,必需具有现代科学决策观念;第二,必需具有较丰硕的知识和合理的知识结构;再次,必需具有较强的分析、判断能力,能够借助科学的分析方式,运用逻辑思维的力量,对决策方案作出有效的比较和选择;最后,必需具有较强的综合能力,对各个备选方案进行归纳归纳,以作出尽可能达到目的的满意决策.(3)胆略与责任感胆略是决策者必需具有的一个要素.其表现是果断、沉着,也包括勇于冒险并勇于负责.有些决策必需迅速作出定夺,绝不能犹豫不定,坐失良机.另外,决策老是成立在预测的基础之上的,而预测毕竟不能代替客观的未来转变.因此,决策无不伴随着风险的存在,这就要求投资决策者能够依照自己及其智能机构的分析判断,坚决信心,勇于冒险,有高度的责任感,勇于主动承担责任.3、决策群的合理结构所谓决策群,是指由众多参与决策进程的决策者组成的有机结合的群体,而不是决策者在数量上的简单集合.决策群从结构上看,应包括以下几个方面.(1)智能结构智能,是指人们熟悉理解事物和运用知识经验解决问题的能力.智能结构,是指依附于个人或集团的智力和他们的有机结合而形成的一种动态知识结构.这种动态知识结构是不断运动转变和进展的.对于个人来讲,由于每一个人的天赋不同、经历不同、所受教育不同,就形成了他个人所特有的知识结构,即微观智能结构;对于集团来讲,智能结构就是组成集团的各成员所具有的微观智能结构的有机结合,即所谓的宏观智能结构.由于决策群担负多种功能,决策群内的决策人员的智能就不该该是同一模式,而是由各有所长的人员一路组成一个完整的综合体.(2)专业结构专业结构指决策群中不同专业、专长与智能人员的比例组成.随着科学技术和社会经济的进展,学科和专业不断出现新的分支,从而也产生了人员的专业化.在复杂的社会经济生活中,任何一种专业人员都不可能单独研究和解决综合性的复杂的课题.只有在精细分工的基础上,使各类专业人员紧密配合和有效结合,才能适应社会经济进展的需要.因此,合理的决策群应具有相应的专业结构,在那个专业结构中,要有各方面的人材.(3)知识结构知识结构是指决策群中具有不同知识水平的人的比例组成.一个合理的知识结构,应该具有各类知识水平的人按必然的比例来组成,并随着决策的需要不断调整,以形成一个各尽所能、彼此配合的动态平衡有机体.(4)素质结构素质结构是决策群组成中一个不可轻忽的因素.决策群中既要有创造型、探索型的人材,能够不断开拓、进取,也要有务实型、层次型的人材,能够勇于开发实施;既要有思想型、战略型的人材,能够多方深谋远虑,也要有组织型、理财型的人材,能够全面协调指挥.四、决策的大体程序任何一项决策活动都依照下列的程序进行:一、明确决策目标决策的目的是为了达到必然的目标.肯定目标是进行决策的前提.若是目标不明确或不适应环境的需要,最终的决策也就不可能正确.二、拟定备选方案按照肯定的目标,拟定多个备选方案,通过对各个方案可能产生的效果的分析进行选优.3、选择衡量方案好坏的准则衡量方案好坏的准则有多种,有单目标准则,也有多目标准则.在不同的准则下,各方案的好坏排序可能不同.4、预测风险决策活动都存在必然程度的风险.要依照预测风险的方式和程序对决策的风险程度作出预测.五、作出决策按照以上几步的分析作出决策.六、反馈调整决策方案决策作出后,要按照环境和需要的不断转变,和对原先的决策所带来的反馈信息,对决策作出相应的改变或调整,从而使决策更科学、更合理.决策的程序可用图10-1表示如下.图10-1 决策程序图§2 不肯定型的决策所谓不肯定型的决策是指决策者对环境情形一无所知.这时决策者是按照自己的主观偏向进行决策,由决策者的主观态度不同大体上可分为五种准则.它们是:悲观主义准则、乐观主义准则、等可能性准则、最小机缘损失准则、折衷主义准则.以下用一个例子来讲明.例某厂打算生产一种新产品,有如下四种方案可供选择:A1—改建原有生产线;A2—新建一条生产线;A3—把一部份派件包给外厂;A4—从市场上采购配件.产品投放市场后能够有四种状态:S1—需求量高;S2—需求量一般;S3—需求量较低;S4—需求量很低.但对状态概率作出估量缺乏资料.各方案在各状态下的后果(收益值)如表10-1所示,试问决策者应如何决策?表10-1 各状态下的后果(收益值)状态方案A1 A2 A3 A4S1 600 800 350 380S2 400 350 220 250S3-150 -300 50 90S4-350 -700 -100 -50解:那个问题可用决策矩阵来描述.决策者可选的行动方案有四种,这是他的策略集合,记作{s i },( i = 1, 2, 3, 4).有四种需求状态,但不知它们发生的概率,这就是事件集合,记作 {E j },( j = 1, 2, 3, 4).每一个“策略—事件”对都能够得出相应的收益值或损失值,记作a ij .将这些数据汇总在矩阵中,见表10-2所示.表10-2 “策略—事件”对下的收益值E j事件s i S1 S2 S3 S4A1 600 400 -150 -350策 A2 800 350 -300 -700略 A3 350 220 50 -100A4 380 250 90 -50这就是决策矩阵,按照决策矩阵中元素所示含义的不同,可分为收益矩阵,损失矩阵,后悔值矩阵等等.下面讨论决策者是如何应用决策准则进行决策的.一、悲观主义决策准则(max min)悲观主义决策准则亦称保守主义决策准则.当决策者面临着各事件的发生概率不清时,由于处置问题比较谨慎,老是从最坏的角度去考虑问题.于是,决策者分析各类最坏的可能结果,从当选择最好者,以它对应的策略为决策策略.具体作法是:在收益矩阵中先从各策略所对应的可能发生的“策略——事件”对的结果当选出最小值,将它们列于表的最右列,再从此列的数值当选出最小者,以它对应的策略为决策者应选的决策策略.例以例10-1中的数据为例,计算见表10-3.表10-3 悲观主义决策准则计算结果4按照max min决策准则有:max(-350,-700,-100,-50)= -50它对应的策略为A4 .二、乐观主义决策准则(max max)持乐观主义决策准则的决策者对待风险的态度与悲观主义者不同.当他面临情形不明的策略问题时,他决不舍弃任何一个可取得最好结果的机缘,以争取好中之好的乐观态度来选择他的决策策略.决策者在分析收益矩阵各策略的“策略—事件”对的结果当选出最大者,记在表的最右列.再从该列数值当选择最大者,以它对应的策略为决策策略.例以例10-1中的数据为例,见表10-4.4按照max max决策准则有:max(600,800,350,380)= 800它对应的策略为A2 .三、等可能性准则(Laplace)等可能性准则是十九世纪数学家Laplace提出的.他以为:当一人面临着某事件集合,在没有确切理由来讲明这一事件比那一事件有更多发生机缘时,只能以为各事件发生的机缘是均等的.即每一事件发生的概率都是1/事件数.决策者计算各策略的收益期望值,然后在所有这些期望值当选择最大者,以它对应的策略为决策策略.例以例10-1中的数据为例,见表10-5.表10-5 等可能性准则的计算结果4按照Laplace决策准则有:max(125,,130,)=它对应的策略为A4 .四、最小机缘损失准则最小机缘损失准则亦称最小遗憾值决策准则.第一将收益矩阵中各元素变换为每一“策略——事件”对的机缘损失值(遗憾值,后悔值).其含义是:当某一事件发生后,由于决策者没有选用收益最大的策略,而形成的损失值.若发生k事件,各策略的收益为a ik(i = 1, 2, 3, 4),其中最大者为a l k = max i (a ik )这时各策略的机缘损失值为a' = { max i (a ik ) - a ik } ( i = 1, 2, 3, 4)ik例以例10-1中的数据为例,计算结果见表10-6.表10-6 最小机缘损失准则计算结果4从所有最大机缘损失值当选取最小者,即min(300,650,450,420)= 300它对应的策略为A1 .五、折衷主义准则当用max min决策准则或用max max决策准则来处置问题时都太极端.于是有人提出把这两种决策准则给予综合.令α为乐观系数,0 ≤α≤ 1,计算H i = α a i max + (1-α ) a i mina i max、a i min别离表示第 i 个策略可能取得的最大收益值与最小收益值.例以例10-1中的数据为例,设α = 1/3,将计算所得的H i值记在表10-7的右端.表10-7 折衷主义准则计算结果按照折衷主义决策准则有:max(-,-200,50,)=它对应的策略为A4 .§3 风险型的决策一、最大期望收益准则(EMV)决策矩阵的各元素代表“策略—事件”对的收益值.各事件的发生概率为p j,先计算各策略的期望收益值:∑jijjap(i = 1, 2, …, n)然后从这些期望收益值当选取最大者,它对应的策略为决策策略.即∑jij jia pmax s k*例以例10-1中的数据为例,假设需求高的概率为,需求一般的概率为,需求小的概率为,需求很小的概率为,结果见表10-8.策 A 2 800 350 -300 -700 140略 A 3 350 220 50 -100 163A 4 380 250 90 -50 198按照最大期望收益准则有:max (200,140,163,198)= 200它对应的策略为A 4 .二、最小机缘损失准则(EOL )矩阵的各元素代表“策略—事件”对的机缘损失值,各事件发生的概率为p j ,先计算各策略的期望损失值:∑'jijj a p ( i = 1, 2, …, n) 然后从这些期望收益值当选取最小者,它对应的策略为决策策略.即 ∑'jij j ia p min s k * 例 以例10-1的数据进行计算,结果见表10-9.表10-9 最小机缘损失准则计算结果4按照最小机缘损失准则有:min (142,202,179,144)= 142它对应的策略为A 1 .EMV 准则与EOL 准则的实质是一样的.三、敏感性分析和全信息的价值一、 敏感性分析无论是哪一种风险型决策问题,在采用期望值决策时,状态概率是十分重要的,它的转变将直接影响决策的结果.因此,有必要来分析一下状态概率影响决策结果的敏感性.例 有一个决策问题如表10-10所示.问p 在什么范围内转变时,决策的结果是选择方案A 2 .表10-10 三方案的收益值和期望值状态 S1 S2 E(A i)方案 p (1- p)A1 30 -40 70p - 40A2 15 -25 40p - 25A3 100 -80 180p - 80若要决策结果为选择方案A2,应有E(A2)> E(A1)E(A2)> E(A3)即 40p - 25 > 70p - 4040p - 25 > 180p - 80得 p < 1/2,p < 11/28.由于p > 0,所以当 0≤ p < 11/28,决策结果为选择方案A2 .二、全信息价值在期望值决策中,概率p i只刻划了状态S i发生可能性的大小.因此,即便占有大量资料得出了p i值,并据此作出决策后究竟适逢哪个状态出现仍然是随机的.如此,就提出了一个花代价去换取究竟出现哪个状态的“全情报”信息及其代价的问题.例某厂生产一种产品,若是销售一台则获利10万元,若是生产一台却销售不出去的话,则损失4万元.通过对市场充分调查,取得下个月市场需要量及其概率如表10-11所示.表10-11 市场需要量及其概率市场需要量(台) 10 20 30概率现需要作决策,下月究竟该生产几台?解:设方案A1、A2、A3别离表示生产10、20、30台,则各方案期望值的计算结果如表10-12所示.表10-12 三方案的收益值和期望值3依照期望值最大的决策准则,应该选择A3,期望收益为202万元.此刻假想,若是花一笔代价去取得市场究竟需要多少台的“全情报”.假定这笔代价为q0元,所带来的益处是按照市场需要进行生产,如此期望收益值为:100⨯ + 200⨯ +300⨯ = 230(万元)如此,q0≤ 230 - 202 = 28(万元).这就是说,全情形的代价不能超过28万元,即该厂为了摸准市场行情所化的代价不能超过28万元.四、效用值及效用期望值决策准则一、效用及效用曲线效用那个概念是由贝努利()提出的.他以为人们对其钱财的真实价值的考虑与他的钱财拥有量之间有对数关系,如图10-2所示.货币M图10-2这就是贝努利的货币效用函数.经济管理学家将效用作为指标,用它来衡量人们对某些事物的主观价值、态度、偏好、偏向等等.例如,在风险情形下进行决策,决策者对待风险的态度是不同的,用效用指标来量化决策者对待风险的态度,能够给每一个决策者测定他的对待风险的态度的效用曲线.效用是无量纲指标,效用值是一个相对的指标值,一般可规定:凡对决策者最爱好、最偏向、最愿意的事物的效用值给予1;而最不爱好、最不偏向、最不肯意的事物的效用值给予0.通过效用指标可将某些难以量化的、有质的区别的事物给予量化.二、效用曲线的肯定肯定效用曲线的大体方式有两种,一种是直接提问法,另一种是对比提问法.(1)直接提问法此方式是向决策者提出一系列问题,要求决策者进行主观衡量并作出回答.例如,向决策者提问:“今年你企业获利100万元,你是满意的,那么获利多少,你会加倍知足?”若决策者回答200万元.如此不断提问与回答,可绘制出这决策者的获利效用曲线.(2)对比提问法设决策者面临两种可选方案A1、A2 .A1——无任何风险地取得一笔金额为x2的钱财;A2——以概率p取得一笔金额为x1的钱财,以概率(1- p)损失金额为x3的钱财(x1> x2> x3);U(x i)——金额为x i钱财的效用值;若以为A1、A2两方案等价,则有p U(x1) +(1- p)U(x3) = U(x2) (10-1)由(10-1)可知,共有四个变量:p, x1 , x2 , x3,若其中的三个变量的值已知,向决策者提问第四个变量应取何值,就可肯定出坐标上的一点.若提问多次,就可肯定出多个点,将这些点连起来就组成了效用曲线.设每次取p = ,固定x 1 , x 3 ,对x 2 进行提问,提三次,能够肯定三点,于是,可绘制出决策者的效用曲线.设 x 1 = 1000000,x 3 = -500000 ,又设U(x 1) = U(1000000) = 1 ,U(x 3) = U(-500000) = 0 ① 对于 U(x 1 ) +(x 3 ) = U(x 2) 问:x 2 取何值时,使U(1000000) + U(-500000) = U(x 2) (10-2) 成立.若回答:x 2 = -250000,则U(-250000) = ⨯ 1 + ⨯ 0 = 绘出第一点.② 对于 U(x 1 ) +(x 2 ) = U(2x ') 问:2x ' 取何值时,使 U(1000000) +(-250000) = U(2x ') (10-3) 成立.若回答:2x ' = 75000,则 U(75000) = ⨯ 1 + ⨯ = 绘出第二点.③ 对于 U(x 2 ) +(x 3 ) = U(2x '') 问:2x '' 取何值时,使 U(-250000) +(-500000) = U(2x '') (10-4) 成立.若回答:2x '' = -420000,则 U(-420000) = ⨯ + ⨯ 0 = 绘出第三点.将这三点连起来,就取得这决策者对待风险的效用曲线,见图10-3.-4 -2 0 2 4 6 8 10 货币(十万元)图10-3 决策者对待风险的效用曲线从以上向决策者提问及回答的情形来看,不同的决策者会选择不同的x 2 、2x '、2x ''的值,使(10-2)、(10-3)、(10-4)成立.这就可以取得不同形状的效用曲线.一般地,效用曲线可分为保守型、中间型、冒险型三种,其对应的曲线见图10-4.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 第十章 对策论基础 §10.1 概论 对策论又称博弈论,它是在竞争场合下,双方(或多方)如何针对对手采取策略的一种定量分析分析方法。在人类的活动中,这种竞争的场合是很多的,例如:军事上的战斗,政治上的较量,企业之间的市场竞争以及普通生活中的下棋,竞赛等等。就连孩子们之间的游戏也是最简单的对策,比如以手势进行的“锤头,剪刀,布”的游戏。在中国古代有个齐王塞马的故事,更是对策问题最典型的例子之一。这个例子说的是:战国时期,齐王有一天提出要与田忌塞马。田忌答应后,双方约定: (1)各自出三匹马; (2)从上,中和下三个等级中各出一匹; (3)每匹马都必须参加比赛,而且只能参加一次; (4)每次比赛双方各出一匹马,一共比赛三次; (5)每次比赛后,负者要付给胜者千金。 当时的情况是,三种不同级别的马,齐王的马要比田忌的同一级别的马要强些,所以从总体上来看齐王是要胜了。但是田忌的高一级的马要比齐王低一级的马要好。因此田忌的一个谋士给他出了个主意: (1)每次比赛先让齐王出马; (2)让田忌以上马对齐王的中马,中马对其下马,下马对其上马。 这样,总的比赛结果是,田忌赢得一千金,即 齐王 田忌 上 下 中 上 下 中 最初用数学方法来研究对策现象的是数学家E.Zermelo,见课本P305. 一 基本概念 不管是什么形式的对策,他们的共同特点是都包含三个的内容:局中人,策略集,赢得函数(或支付函数)。下面分别介绍。 1. 局中人 局中人是指在对策中有权决定自己行动方案的参加者。局中人可以是人,也可以是集体。在多人决策中,利益一致的伙伴关系被视为一个局中人。对局中人还有一个重要的假设:每个局中人都是有理智的,都不会发生疏忽大意的错误。 2. 策略与策略集 在一局对策中,每一个局中人都有一个可行的完整的行动方案,此方案不是某一步的行动方案,而是按计划执行的一个确定的方案,称为策略,如:在齐王塞马的例子中,用(上,中,下)表示的上马,中马,下马依此出场参赛的次序,就是一个完整的行动方案,或称为局中人的一个策略。这样的策略可能还有很多,如(上,下,中);(中,上,下);(中,下,上)等等。所有这些策略的总和称为局中人的策略集。用符号Si 表示局中人i的策略集合。 3. 局势 在一局对策中,每个局中人所出策略形成的策略组称为一个局势,一般用S表示。如:在齐王塞马的例子中,齐王出策略(上,中,下),田忌出策略(下,上,中),则这两个相对阵的策略所构成的策略组称为这一局对策的局势。如果有n个局中人,则n个局中人的策略形成的策略组S=(S1,S2,---,Sn),就称为一个局势。 2
4. 赢得函数(或支付函数) 当一个局势出现后,按事先的规定,可以计算局中人各自的得失。所以一局对策结束时,每一个局中人的得失是全体局中人所取定的一组策略的函数,此函数即称为赢得函数,用符号Hi 表示局中人i的赢得函数(或支付函数)。如:齐王塞马的例子中的一个局势,齐王的(上,中,下)对田忌的(下,上,中),按题设,齐王先一胜,后两败,田忌则先一败,后两胜。故按规定,齐王应支付田忌一千金(即齐王的赢得为负值)。由此可见,每个局势都有一定的得失。这个得失是局势的函数,因此被称为局中人的赢得函数。 5. 零和对策 如果在任一“局势”中,全体局中人的“得失”相加总是等于零,这个对策就叫做“零和对策” 6. 矩阵对策,指有限二人零和对策 矩阵对策的特点主要如下:①局中人只有两人;②每个局中人都有有限个可供选择的策略;③任一局势中,两个局中人的得失之和等于零。 二 对策模型及其例子 对策模型:一个对策模型就是由局中人,策略集合和赢得函数(或支付函数)这三部分组成,用符号
{1,2,,},,,(),iiGInSiIHSiI 来表示。 对策的进行过程是这样的,见课本P306 对策问题的例子很多,如前面提到的田忌塞马。下面再举几个例子,见课本P307. ---------------------------------------------------------------------------------------------------------------- 对策的种类很多,可以依据不通原则来进行分类。
动态对策 联合对策 对策 结盟对策 不结盟合作对策 静态决策 有限对策 不结盟对策 无限对策 ---------------------------------------------------------------------------------------------------------------------- 对策的种类很多。在这些对策模型中,二人有限零和对策是一种比较简单的对策,也是到目前为止理论研究和求解方法方面都比较成熟的一类对策。这类对策的研究思路与理论是研究其它对策模型的基础,故本章主要介绍二人有限零和对策的基本理论和方法。
§10.2 矩阵对策的基本理论 一 矩阵对策的数学模型 以齐王塞马为例: 1. 齐王的策略共有六个 a1(上,中,下);a2(上,下,中); a3(中,上,下); a4(中,下,上); a5(下,中,上); a6(下,上,中) 3
称为齐王的策略,记为S1={ a1, a2, „, a6} 2. 田忌的策略共有六个 β1(上,中,下);β2(上,下,中);β3(中,上,下); β4(中,下,上);β5(下,中,上);β6(下,上,中) 称为田忌的策略,记为S2={β1, β2, „, β6} ai , βj 称为纯策略。 3. 齐王的赢得见下表1。同理可得田忌的赢得(作为练习) 4. 矩阵对策的数学表示 给定一个矩阵对策,局中人甲的纯策略集合为S1,局中人乙的纯策略集合为S2。局中人甲的赢得矩阵为A=( aij )。这时,我们把这个对策记为G G={Ⅰ,Ⅱ,S1,S2,A} 或 G={S1,S2,A}
齐王的赢得表1 (单位:千金) 赢 βj
得 ai β1 β2 β3 β4 β5 β6
a1 a2 a3 a4 a5 a5 3 1 1 -1 1 1 1 3 -1 1 1 1 1 1 3 1 -1 1 1 1 1 3 1 -1 1 -1 1 1 3 1 -1 1 1 1 1 3 二 最优纯策略 下面举一个例子来说明最优纯策略的概念与求解最优纯策略的思路: 现有一矩阵对策G={S1,S2,A}: S1={ a1, a2, a3, a4},S2={β1, β2, β3}
321
6031019423816
4321
aaa
a
A
求双方的最优策略和赢得。 我们先来讨论一下对策的双方在对策时的思维过程。 从A矩阵得知,甲方的最大赢得是9,为此他必须选策略a3。而乙方会估计甲方出a3
的心理,故准备以β3作为对策。这样使甲不但得不到9,反而损失10。甲也考虑乙有可能
出β3的心理状态,故想以a4为对策,使乙不但得不到10,反而失去6„„,如此下去,总不会得到一个满意结果。 如果双方都是有理性的,都不会冒很大的危险,必然都会以“从最坏处着想,尽量争取最好的结果”这一思想作为决策的指导方针。这正是在不定型决策中的最大最小原则。因此对甲来说,每一个策略的最坏结果是:–8,2,–10,–3。在这些最坏情况中,最好的结果是2,即无论局中人乙出什么策略,局中人甲只要出a2参加对策,其结果就能保证收入不小于2。 4
依同理,对局中人乙来讲,每一个策略的最坏结果是:9,2,6。而在这些结果中,最好的结果是2(即支付2)。也就是说,无论甲选哪个策略,只要乙选β2参加对策就可以保证支付不大于2。 这时我们可以看到,对局中人甲和乙两人来说,最坏情况下的最好结果的绝对值是相等的。这时我们称a2为局中人甲的最优纯策略,β2为局中人乙的最优纯策略。(a2,β2)称为对策G={S1,S2,A}的最优局势。局中人甲在最优局势中的赢得称为G的值。 求最优纯策略的过程用数学公式表达如下: 对局中人甲来说,就是先对矩阵A的每一行取最小值: min{–6, 1, –8}=–8 min{3,2,4}=2 min{9, –1, –10}=–10 min{–3,0,6}=–3 再从这些最小值中取最大值: max{–8, 2, –10, –3}=2 由此可见,局中人甲的最优策略是a2。 而对局中人乙来说,是先对矩阵A的每一列取最大值: max{–6, 3 ,9, –3}=9 max{1, 2, –1, 0}=2 max{–8, 4, –10, 6}=6 再从这些最大值中取最小值: min{9, 2, 6}=2 由此可见,局中人乙的最优策略是β2。 以通式表示,设矩阵对策G={S1,S2,A},S1={ a1, a2, „, am},S2={β1, β2, „, βn},
111212122212nm
mmmn
aaaaaaAaaa
对局中人甲的最优策略是: )min(maxijjia
对局中人乙的最优策略是: )(maxminiijja
定义 设有矩阵对策G:G={S1,S2,A},如等式)min(maxijjia=)(maxminiijja成立,记其值VG,则称VG为对策G的值。 如果这个点记为**,jia,则纯局势为(**,jia),使*maxijia=jija*min,则称(**,jia)
为对策G的鞍点或平衡局势,也称它是对策G在纯策略中的解。**,jia分别称为局中人甲和乙的最优纯策略。**GijVa为对策G的平衡局势的值 在上例中,VG=2,a2与β2分别为局中人甲和乙的最优纯策略,局势(a2,β2)为对策