对策论
运筹学-第15章--对策论

1 8 5 8 5 5*
2 2 3 2 1 1
3 4
9 0
5 2
6 3
5 5*
3
0
max 9 5* 8 5*
可知 ai* j* =5,i*=1,3,j*=2,4.故(α1,β2)(α1,β4)(α2,
β2)(α2,β4)为对策的纳管 什理均运衡,筹 V学G=5.
15
• 最优纯策略求解步骤:
• 1、行中取小,小中取大得最大化最小收益 值;
• 2、列中取大,大中取小得最小化最大支付 值;
• 3、比较两值是否相等。若相等便存在最优 纯策略。若不等,则不存在最优纯策略。
管理运筹学
16
§3 矩阵对策的混合策略
设矩阵对策 G = { S1, S2, A }。当
max
i
min
j
aij
min
j
max
i
aij
时,不存在最优纯策略。
例:设一个赢得矩阵如下:
一个局势,一个局势决定了各局中人的对策结果(量化) 称为该局势对策的益损值。
管理运筹学
3
§1 对策论的基本概念
出赛的次序是一个策略 “齐王赛马”齐王在各局势中的益损值表(单位:千金)
管理运筹学
4
§1 对策论的基本概念
其中:齐王的策略集: S1={ 1, 2, 3, 4, 5, 6 }, 田忌的策略集:S2={ 1, 2, 3, 4, 5, 6 }。
A=[aij]m×n i 行代表甲方策略 i=1, 2, …, m;j 列代表乙方策略 j=1, 2, …, n;aij 代表甲方取策略 i,乙方取策略 j,这一局势下甲方的 益损值。此时乙方的益损值为 -aij(零和性质)。
运筹与优化--对策论

y∈S2*为局中人I和Ⅱ的混合策略,(x,y)为混合局势,
局中人I的赢得函数为 E(x,y)xTAy aix jiyj
称G* ={S1*,S2*,E}为对策G的混合扩充. i j
A
12
设 mm ax E i(x n ,y)mE i(x n *,y)
x S 1 * y S2 *
y S2 *
mm inE a(x,x y)mE a(x,x y*)
注意:G在纯策略下解存在时,定义4中的
VG ;Gai在j 混合策略意义下的解(x*,y*)
存在时,VG=E(x*,y*).
例4. 解矩阵对策 中
3 G6={S1 ,S2 ;A },其
A
5
4
A
14
局中人I取纯策略αi时,其赢得函数为 E(i,y)=∑aijyj ,
局中人Ⅱ取纯策略βj时,其赢得函数为 E(x,j)=∑aijxi .
人I以概率xi≥0取纯策略αi,局中人Ⅱ以概率yj≥0取
纯策略βj ,且
m
xi
1.记,
n
yj 1
i1
j1
m
S 1 {x(x1,x2, ,xm ) E mxi0 , xi1 }
i 1
n
S2 {y(y1,y2, ,yn) E nyj0, yj1 }
j 1
则S1* ,S2*分别称为局中人I和Ⅱ的混合策略集.称x∈S1*,
A
24
推论.如果纯策略α1被纯策略α2 , … αm的凸线 性组合所优超,则定理10的结论仍成立.
由上两式得
E(x,y)=∑E(i,y)xi
(5)
E(x,y)=∑E(x,j)yj . (6)
定理3.设x∈S1*,y∈S2*,则(x*,y*)是G的解的充要条 件是: 对任意i=1,2,…,m 和 j=1,2,…,n,有
《管理运筹学-对策论》

博弈与均衡
04
对策分析方法
CHAPTER
VS
静态分析法是一种不考虑时间因素的分析方法,主要适用于解决一次性决策问题。
详细描述
静态分析法将问题视为一个静态系统,不考虑时间变化和过程发展,只关注决策变量的当前状态和最优解。这种方法适用于确定性和静态的环境,如线性规划、整数规划等。
总结词
静态分析法
总结词
《管理运筹学-对策论》
目录
对策论概述 对策模型 对策论的基本概念 对策分析方法 对策论的应用实例 对策论的未来发展
CONTENTS
01
对策论概述
CHAPTER
对策论,也称为博弈论,是研究决策主体在相互竞争、相互依存的环境中如何进行策略选择和行动的学科。
对策论强调理性、优化和均衡,通过数学模型和逻辑推理来描述和分析竞争行为,尤其关注在不确定性和信息不对称情况下的决策问题。
对策论的定义与特点
特点
定义
竞争策略分析
对策论可以用于分析企业或组织在市场竞争中的策略选择,例如定价策略、产品差异化、市场份额争夺等。
合作协议
在某些情况下,企业间可能通过对策论的方法找到合作的可能性,例如供应链协调、合作研发等。
人力资源决策
在招聘、晋升、激励设计等方面,对策论可以帮助理解个体和团队的行为反应,优化人力资源决策。
03
对策论的基本概念
CHAPTER
策略与行动
策略
在对策中,参与者为达到目标所采取的行动方案。策略是完整的、具体的行动计划,它规定了参与者在所有可能情况下应采取的行动。
行动
在对策中,参与者实际采取的行动。行动是实现策略的具体行为或决策。
在对策中,如果一个参与者的某个策略能够使其获得比其他参与者更好的结果,则称该策略为优势策略。优势策略是相对于其他参与者的策略而言的。
对策论概述

对策论对策论是对决策者之间的行为的相互影响的研究。
因为对对策论的研究特别强调决策者行为的理性,在过去的二十年间,对策论已被广泛地应用于经济学中。
确实大多数经济行为能够被看成是对策论的一个特殊的情形。
5.1 对策的描述一个对策是对许多决策者的行为的相互影响的正式的表示。
行为的相互影响意思是每一个人的福利不仅依赖她自己的行为而且依赖其他人的行为。
而且她可能采取的最好的行为依赖于她对其他人的行为的预期。
要想完整地描述一个对策,我们必须知道以下四件事情:(1)局中人:有那些人卷入该对策?(2)规则:谁什么时候行动?当他们行动时他们知道什么?他们能干什么?(3)结果:对于局中人的每一组行为,对策的结果是什么?(4)报酬:局中人关于各种可能的结果的偏好(也即效用函数)是什么?例子5.1.1:配对的便士(A)局中人:这里有两个局中人,分别记为1和2。
规则:两个局中人同时抛下一个便士,要么正面向上要么反面向上。
结果:如果两个便士是配对的(要么两个正面向上要么两个反面向上),那么局中人1付一元钱给局中人2;否则,局中人2付一元钱给局中人1。
报酬:每个局中人的报酬简单地等于她得到的或失去的钱的数量。
一般地,这里有两种方法描述一个对策:策略(规范)形式的表示和扩展形式的表示。
5.1.1 一个对策的策略(规范)形式表示假设这里有有限个局中人,局中人的集合为},,2,1{I 。
每一个局中人i ∈},,2,1{I 有一个策略集,记为i S 。
在一个-I 人对策中,局中人的策略组合用一个向量表示为},,{1I s s s =,这里i s 是局中人i 的策略选择。
有时我们也把策略组合s 表示成),(i i s s -,这里i s -是除了局中人i 以外的)1(-I 个局中人的策略组合。
对于每一个策略组合},,{1I s s s =,局中人i 的效用函数为),,(1I i s s u 。
一个-I 人对策的规范形式的表示记为)}]({},{,[⋅=Γi i N u S I 。
对策论也称博弈论

对策论也称博弈论,是研究斗争策略的数学理论。
所谓斗争策略是指两个或两个以上参加斗争的各方,具有相互矛盾的利益,为了使自己获胜,他们各自采取对付对方所用的各种可能的办法。
对策论是一门应用性很强的学科,与人们的生产实践有着密切的关系,特别在经济管理、政治和军事方面的作用,已引起了广泛的注意,其处理问题的特殊又吸引着为数不少的数学工作者。
可以举出很多对策论的例子。
如在日常生活中的下棋、打桥牌、猜拳、体育竞赛等,斗争的各方,都各有自己的长处和短处,在竞赛过程中,各方都设法发挥自己的长处,进攻别人的短处,尽一切可能战胜对方。
在军事方面,对策论的例子更是到处可见,进攻和防守,包围与反包围,围剿与反围剿,在国际上侵略与反侵略,封锁与反封锁,目的都是在保存自己,消灭对方。
在经济领域内,国际间的贸易谈判,争夺原料与市场的斗争、限制进口和反限制的斗争。
在国内,各工厂与企业之间的产品竞争,商业上的市场竞争,销售和顾客的讨价还价等等,各方都想在谈判中取胜或在竞争中挤垮对方。
在政治方面,国与国间的外交谈判,国内各政治集团之间的和平谈判,各方都想在谈判中处于有理地位,或在谈判中得到好处。
上面所列举的各种现象,都是相互斗争或竞争的现象,称为对策现象。
对策论就是研究斗争各方如何战胜对方的数学理论。
依照局中人在对策中所能利用的信息总和来分类,如全信息对策等。
在对策模型中,占有重要地位的是二人有限零和对策。
一般也称之为矩阵对策。
在这种对策中,局中人在各种局势下的支付,可以用一个局中人的支付矩阵来表示。
二人有限零和对策是研究得对比完善的一直对策,理论的研究和求解方法都比较完整。
且其理论是研究其他对策模型的基础。
一般地,设矩阵对策{}A P P G ,,21=的支付矩阵为{}mxn ij a A =如果对某个k,存在一个i ,使对每个n j ≤≤1都有:()1,1,1≠≤≤≤≤≤k m i m k a a ij kj 成立,则对局中人1P 而言,策略1A 优于k a 。
对策论

对策论(博弈论) 中文名称:博弈论 英文名称:game theory 定义1:一种处理竞争与合作问题的数学决策方法。 应用学科:地理学(一级学科);数量地理学 (二级学科) 定义2:研究竞争中参加者为争取最大利益应当如何 做出决策的数学方法。 应用学科:生态学(一级 学科);数学生态学(二级学科) 定义3:根据信息分析及能力判断,研究多决策主体 之间行为相互作用及其相互平衡,以使收益或效 用最大化的一种对策理论。 应用学科:资源科技 (一级学科);资源管理学(二级学科)
•
高中概率、排列、组合知识的学习。
• 例2:河南政法 2010A-41)把 9 个苹果分 给 5 个人,每人至少一个苹果,那么不同 的分法一共有多少种?
• A.30 B.40 C.60 D.70
• [强化 1]D • [简析]9 个苹果排成一排,形成 8 个空, 中间插上 4 个挡板,就可以把这 9 个苹果 分成 5 份,并且每份至少 1 个。在 8 个空 中插上 4 个档板:C4/8=70 (种)分法。
• [例 5]B • [简析]挑选 2 个不同的年级有 3种情形, 总共有 5×6+6×3+3×5=63(种)选择。
• [例 9]A • [简析]先插入第一个节目,有 4 个位置, 所以有 4 种方法;再插入第二个节目,此 时有 5 个位置, • 所以有 5 种方法。共有不同安排方法 更多 资料4×5=20 种。
• • 例1:田忌与齐威王赛马并最终获胜被传为 佳话。假设齐威王以上等马、中等马和下 等马的固定顺序排阵,那么田忌随机将自 己的三匹马排阵时,能够获得两场胜利的 概率是( )。福建 (2010-101) • A.2/3 B.1/3 C.1/6 D.1/9
• C • • [简析]田忌随机排布自己的三匹马一共 有 A3 /3种方法,但是只有“下等马、上等 马、中等马”这种唯一的排布可以获得两 场胜利,所以概率为 1/6。
对策论(Theory of Games)

定义
并不是所有的对策都存在鞍点,如 A为齐王的赢得矩阵 3 1 1 1 1 -1 1 3 1 1 -1 1 A= 1 -1 3 1 1 1 -1 1 1 3 1 1 1 1 -1 1 3 1 1 1 1 -1 1 3 max(min aij)= -1 min (max aij)=3 i j j i
例如:
• 给定矩阵对策
6 5 6 A 1 4 2 8 5 7
对策的最优值为5,对策的解有两个,分 别为局势 , 和 , 。
1 2 3 2
(三)矩阵对策的混合策略
1、矩阵对策的混合策略的定义
2、原则:坏中求好的原则。 3、解的存在:一定有解 4、混合策略求解:利用期望转化成 线性规划问题求解。
三、矩阵对策模型
(一)矩阵对策的概念 (二)矩阵对策的最优纯策略 (三)矩阵对策的混合策略 (四)矩阵对策的解法
(一)矩阵对策的概念 1、矩阵对策的定义 2、建立矩阵对策模型
1、矩阵对策的定义 局中人只有两个,对策中各方只能从有限 的策略集中确定性的选择一种,且对策双 方的支付之和为零的对策称为两人零和纯 策略对策。
表2
齐 王 上中 下 田忌 上中下 3 上下 中上 中 下 1 1 中下 上 -1 下中 上 1 下上 中 1
上下中 1 中上下 1
中下上 1 下中上 1
3 1
1 -1
-1 3
1 1
1 1
3 1
1 -1
1 3
1 1
-1 1
下上中 -1
1
1
1
1
3
引例3
有两个儿童A和B在一起玩“石头-剪子布”游戏。我们规定胜者得1分,负者得 -1分,平手时各得0分。双方选定的各种 出法及相应的结果可由下表列出。双方 应取何种策略?
对策论

在日常生活中,经常可以看到一些具有相互斗 争或竞争性质的行为,
如下棋、打牌、体育比赛等 还有企业间的竞争、军队或国家间的战争、政治斗 争等,都具有对抗的性质。
这种具有竞争或对抗性质的行为称为对策行为。
在这类行为中,各方具有不同的目标和利益。为实 现自己的目标和利益,各方必须考虑对手可能采取 的行动方案,并力图选择对自己最为有利或最为合 理的行动方案。
在田忌赛马中
局中人集合I={1,2}
齐王和田忌的策略集合可分别用S1={α1,…,α6}, S2={β1,…,β6}
齐王的任一策略αi和田忌的任一策略βj就构成了一个 局势sij
如果α1 =(上,中,下), β1 =(上,中,下), 则在局势s11下,齐王的赢得为H1(s11)=3,田忌的赢 得为H2(s11)=-3
6 1 8 3 2 4 A 9 1 10 3 0 6
局中人Ⅰ当然也会猜到局中人Ⅱ的这种心理,转而出α4来对 付,使局中人Ⅱ得不到10,反而失掉6; …… 如果双方都不想冒险,都不存在侥幸心理,而是考虑到对方 必然会设法使自己所得最少这一点,就应该从各自可能出现 的最不利情形中选择一个最有利的情形作为决策一句。 这就是所谓的“理智行为”,也是对策双方实际上可以接收 并采取的一种稳妥的方法。
对策问题举例:市场购买力争夺问题
据预测,某乡镇下一年的饮食品购买力将有4000万元。乡镇企 业和中心城市企业饮食品的生产情况是:乡镇企业有特色饮食品 和一般饮食品两类,中心城市企业有高档饮食品和低档饮食品两 类产品。他们购买这一部分购买力的结局表如下。
乡镇企业所得(万元)
乡镇企业 的策略 出售特色饮食品
即局中人Ⅰ、Ⅱ的策略集分别为
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3 4*
乙欲选β2 ,使损失变小(4);甲判断乙的意图, 故选α1 ,使收益变大(6);乙则选β1 ,使甲只 能得3;等等。双方的2个策略都有可能被选择
混合策略意义下的解
双方选择各自策略的最佳概率分布
最佳的(x1,x2),(y1,y2)? (x1+x2=1, y1+y2=1) 乙 β1 β2
甲 α1
益的动机变为实现社会最大利益的手段的 “看不见的手”并不总是存在的
政府在社会经济活动中的组织协调是必需 的,放任自流并不是导致全社会最大福利 的最佳政策
纳什均衡
求解博弈问题的关键在于寻找各方都不愿 或不会单独改变自己策略的策略组合;这 种策略组合就是纳什均衡(囚徒困境)
矩阵对策
两人有限零和博弈问题
β1 α3 α4 α5 7 4 6 β2 3 6 0
β1 α3 α4 7 4
β2 3 6
乙 甲 概率 分布 0 0 x3
β1 y1
β2 y2
β3 0
β4 0
β5 0
α1
α2 α3
3
5 7
2
0 3
0
2 9
3
5 5
0
9 9
α4
α5
x4
0
4
6
6
0
8
8
7
8
5.5
3
矩阵对策求解步骤
1. 2. 3.
进行矩阵优超,化简 有鞍点,求纯策略意义下的解 鞍点不存在,利用有关解法求解(下述)
囚徒的困境
缺乏证据指证;分别关押; 都不承认,妨碍公务,各 判1年;一个承认,当即 释放,另一个重判8年; 都承认,各判5年
囚 徒 1 不坦白 坦白
囚徒2
不坦白 -1,-1 0,-8 坦白 -8,0 -5,-5
囚徒1的选择
完全信息:双方只有2策略及4种组合下的损益 个体行为理性:实现自身最大利益为唯一目标 非合作博弈:不能“串通”、“共谋” 策略选择过程
例1,甲(0,1,0),乙(0,1,0)
当纯策略解不存在时,双方在博弈前应对 各自选择实施的(纯)策略加以保密,否 则对方会有针对地选择于己有利的策略
策略优超
纯优超
如果赢得矩阵中第m行的元素都不小于第n行的 对应元素,则称局中人I的纯策略αm优超于αn 如果赢得矩阵中第m列的元素都不大于第n列的 对应元素,则称局中人II的纯策略βm优超于βn
2×3图解法 α1 α2 3/11 8/11 y1 2 7
β2
y2 3 5
β3
y3 11 2
期望值
7 -5x =62/11
5- 2x =49/11
9x+2 =49/11
β1
2×3图 解法 α1 α2 y1 =0 2 7
β2
y2 3 5
β3
y3 11 2
期望值 3y2 +11y3
5y2 +2y3
9 y 2 11 3 y2 11 y3 v 2 5 y2 2 y3 v y3 11 y y 1 3 2 49 v 11
博弈的结果依赖双方策略的选择—策略的 相互依存性,“你中有我,我中有你”
如果双方都不愿冒险,都不存在侥幸心理, 即不能指望依靠对方犯错来获取于己有利 的结果;就应该从各自可能出现的最不利 的情形中选择一种最为有利的情形作为决 策依据——即所谓的“理智行为”,也是 双方实际上都能接受的一种稳妥方法
囚徒2选“不坦白”:最佳选择为“坦白” 囚徒2选“坦白”:最佳选择为“坦白”
同理,囚徒2的选择—“坦白” 结果:各判5年,2人共计10年
总体最佳结果:各判1年,2人共计2年
现实案例
倾销 价格战 公共资源问题(西北防护林、公共牧场等) 石油输出国组织的限额和突破
启示
每个个体只为自身的利益打算,即使大家 都遵守社会规则,个体的行为是不一定符 合集体或社会的利益的,甚至也不一定真 能实现个体的最佳利益;即将追求个体利
2个博弈方 每方策略有限 零和:你方所得为我方所失,“你死我活” 损益信息完全 静态博弈:双方同时“出招”
博弈信息可以用一个矩阵归纳—局中人I的 赢得矩阵(局中人II的支付矩阵)
例1、局中人I的赢得矩阵
乙
甲 α1 -6 1 -8
β1
β2
β3
α2
α3 α4
3
9 -3
2
-1 0
4
-10 6
α2
x2
a21
a22
v — 对策值 a11 x1 a21 x2 v (1) a12 x1 a22 x2 v x x 1 1 2 a11 y1 a12 y2 v ( 2) a21 y1 a22 y2 v y y 1 2 1
例3
12 10 8 6 4 2 0
0 1
B1(1/5,6)
α1 α2
B2(4/9,6)
α3
α2
α3
α1
y
1/5≤y≤4/9 局中人I只选α2
β1 β2
3×2图解法 α1
α2
y 2
6
1- y 7
6
期望值 7-5y ≤6
6
α3
11
2
9y+2 ≤6
最优混合策略 1/5≤y≤4/9
β1
3×2图解法 y
β2
1- y
假如双方可以进行重复博弈,比如例2中, 10000次,则最佳策略选择:
甲2500次采用α1 , 7500 次采用α1 乙5000次采用β1 , 5000次采用β2 结果:平均来看,甲获益9/2,乙损失9/2
结论
矩阵对策在纯策略意义下不一定有解,但 在混合策略意义下,一定有解
纯策略意义下的解是混合策略意义下解的 特例
乙
甲 α1 -6 1 -8 *
β1
β2
β3
局中人I最不利 MIN -8 2*
-10 -3 2
α2
α3 α4
3
9 -3 *
2*
-1 0
4
-10 * 6
局中人I最有利:MAX
乙
β1 -6 3
β2 1 2*
β3 -8 4
甲
α1 α2
α3
α4 局中人II最不利 MAX
9*
-3 9
-1
0 2*
-10
6* 6
对策值=5
乙 甲 概率 分布 0 0 1/3 2/3 0 β1 1/2 β2 1/2 β3 0 β4 0 β5 0
α1
α2 α3 α4 α5
3
5 7 4 6
2
0 3 6 0
0
2 9 8 8
3
5 5 7 8
0
9 9 5.5 3
2×n对策的图解法 例5
β1
2×3图解法 α1 α2 x 1- x 期望值 y1 2 7 7 -5x
线性方程组法 (试算求解,无固定规则可循)
纯策略
甲 α1 α2 …
乙
混合策 略 x1 x2 …
β1
y1 a11 a21 …
β2
y2 a12 a22 …
…
… … … …
βn
yn a1n a2n …
αm
xm
am1
am2
…
amn
假设:最优混合策略中xi 和yi 0 则求解以下2个方程组: aij xi v ( j 1,..., n) i (I) xi 1 i aij y j v (i 1,..., m) j ( II ) y j 1 j 1、求解结果:xi 和y j 0, 结束 结论2、求解结果中,有xi或y j 0, 则视情况, 将( I )和(II)中某些等式改为不等式,继续试算求解
α1
α2 α3
0
1 0
2
6 11 6
7
6 2
对策值(期望值)
线性规划法
' yj ' xi yj x i v v ' ' MinW y j MinZ x i j i ' ' ( P) aij xi 1 或( D) aij y j 1 i j x' 0 y' 0 i j v 1 v 1 ' ' x i yj
无鞍点的矩阵对策解法
2×2对策的公式法 2×n或m×2对策的图解法 线性规划法 线性方程组法(试算求解,无固定规则可 循) 迭代法(近似方法)
2×2对策的公式法
如果没有鞍点,可以证明各局中人的最优 混合策略中分量均大于零
乙
概率分布 甲 α1 x1
β1
y1 a11
β2
y2 a12
损益:零和、常和、变和(各方损益之和
是变化的)
损益的信息:完全与不完全
次序:静态与动态(同时或不同时选择策
略)、重复博弈(回头客、企业间合作竞 争)
进程的信息:完美与不完美
本章介绍的是:矩阵对策——两人、有限 策略、零和、损益信息完全、静态、非重 复的博弈问题
“个体行为理性”假定
β2
y2 3 5 5- 2x
β3
y3 11 2 9x+2
局中人I — 最小最大原则
12 β3 10 8 β1 6 β2 4 2 0
0 1
β3