数学建模第十讲博弈模型

合集下载

课数学建模博弈模型

课数学建模博弈模型
与囚徒困境类似的博弈问题在经济、社会领域有 许许多多的版本,下面再举几个例子。
A,B两个公司以高低两种价格向市场竞相销售 同一种产品。双方协定以高价格垄断市场,可以 使彼此获得满意的利润收益,至少要好于双方都 以低价格出售产品的情形。但如果某一方坚持高 价,而另一方为了独占市场却将产品以低价格推 销(协定不受遵守而不受处罚),那么后者将获 高盈利而前者将损失惨重。市场上商品的价格战, 常常出现的结局一般是以低价格销售商品,消费 者从中得到好处,这种结果正是博弈论预测的合 理结局,你们不妨自己设计一个类似于图1-1的 A,B公司的收益矩阵。
进行产品研究、开发以及新产品广告宣传时,对 大企业而言,其资金实力及可望的收益会使大企业有 投资的积极性,而小企业往往会得不偿失。小企业通 常采取与大企业建立协作生产或移植部分技术的做法。
介绍上面三个博弈论的例子,首先,是让你们 对博弈论有一个初步的感性认识。虽然在阐述中也 涉及了专业术语,诸如理性、有效、战略、占优战 略、博弈解等,但是这些术语的含义是你们可以接 受的。其次,通过这些例子想给你们留下一个深刻 印象:博弈论与社会经济等诸多领域的联系是如此 广泛、如此密切。下面章节对囚徒困境博弈在不同 的理论的高度还要进行研究和分析,这个例子还会 在不同地方被引用。
常见的游戏如棋类,两人对奕,此两人便称为
局中人,他们各有一套棋路,或善于用马,或长于 用炮。在每次轮到一方走子时,他可能有许多走法, 这些走法依赖于当时棋局形势以及棋手想要达到的 目的,以及他惯用的走法,从而形成他走棋的指导 思想。对奕时指导棋手行动的思想便称为策略。对 局终了可能有三种结局:甲胜;乙胜;和局。如果 用数量表示各种结局,例如胜家赢得彩金若干(设 所得彩金由输家付给,则输家当然失去若干),和 局时都不能取得彩金,此种表示结局的数称为支付 (payoff)。局中人、策略、支付是博弈论中常见 的基本概念。

博弈模型汇总

博弈模型汇总

博弈模型汇总如下:
1.合作博弈与非合作博弈:这是根据参与者之间是否可以达成具
有约束力的协议来划分的。

合作博弈强调团队合作和协作,目标是达成共赢;而非合作博弈则强调个人利益最大化,不考虑其他参与者的利益。

2.静态博弈与动态博弈:这是根据参与者做出决策的时间顺序来
划分的。

静态博弈是指所有参与者同时做出决策,或者决策顺序没有影响;动态博弈是指参与者的决策有先后顺序,后行动者可以观察到先行动者的决策。

3.完全信息博弈与不完全信息博弈:这是根据参与者对其他参与
者的偏好、策略和支付函数了解的程度来划分的。

完全信息博弈是指所有参与者都拥有完全的信息,能够准确判断其他参与者的策略和支付函数;不完全信息博弈则是指参与者只拥有部分信息,无法准确判断其他参与者的策略和支付函数。

4.零和博弈与非零和博弈:这是根据所有参与者的总收益是否为
零来划分的。

零和博弈是指所有参与者的总收益为零,一方的收益等于另一方的损失;非零和博弈则是指所有参与者的总收益不为零,各方的收益和损失不一定相关。

5.竞争博弈与合作博弈:这是根据参与者之间是否存在竞争或合
作关系来划分的。

竞争博弈是指参与者之间存在竞争关系,目标是追求个人利益最大化;合作博弈则是指参与者之间存在合作关系,目标是追求共同利益最大化。

6.微分博弈与离散博弈:这是根据决策变量的连续性来划分的。

微分博弈是指决策变量是连续变化的,需要考虑时间、速度等因素;离散博弈则是指决策变量只有有限个可能的取值,通常只考虑状态的变化而不考虑时间、速度等因素。

数学建模第十讲博弈模型演示教学

数学建模第十讲博弈模型演示教学
赢得函数:当局势出现后,对策的结果也就确定 了。也就是说,对任一局势s∈S,局中人i可以得到 一个赢得Hi(s)。
显然, Hi(s)是局势s的函数,称之为第i局中人的 赢得函数。
10.1 二人零和对策
1﹒二人有限零和对策: 是指有两个参加对策的局中人, 每个局中人都只有有限个策略可供选择,在任一局势 下,两个局中人的赢得之和总等于零。
数学建模第十讲博弈模型
问题二:囚徒困境
甲乙两个嫌疑犯因同一罪行被逮捕,如果双方均 坦白,则各获刑3年,如果双方均不坦白,则各获刑 2年,如果其中一人坦白,另一人不坦白,则坦白一 方宽大释放,另一方获刑5年,两个嫌疑犯各自应采 取什么策略才能使自己的刑期最短。
问题分析:问题中所涉及的要素
(1)决定者—甲、乙嫌疑犯两人; (2)可用的决定—坦白、不坦白;
的完整的行动方案,称为一个策略。设i为局中人,i 的所有策略构成的集合Si称为i的策略集。
3﹒赢得函数(支付函数)
局势: 在一局对策中,各局中人所选定的策略形 成的策略组称为一个局势。即若设si是第i个局中人的 一个策略,则n个局中人的策略组s={s1, s2,…, sn} 就是一个局势。
全体局势的集合S可用各局中人策略集的笛卡尔 乘积表示,即S=S1× S2×… × Sn
因此局中人Ⅱ的策略应为β 2 。 总之,局中人Ⅰ﹑Ⅱ的最优察纯策略分别为α2 ,β 2。
4﹒矩阵对策的解 定义1 设G={S1 , S2;A}为矩阵对策,其中
S1={α1,α2, …,αm},S2={ β 1, β 2, …, β n} , A= (aij)m×n
若等式
max
i
min
j
aij=minj
am1 am2 …amn 局中人Ⅱ的赢得矩阵为﹣A。

数学建模博弈模型

数学建模博弈模型

博弈模型在实际问题中的应用前景
政策制定
01
利用博弈模型分析政策制定中的利益关系和策略选择,为政策
制定提供科学依据。
企业竞争策略
02
利用博弈模型分析企业竞争中的策略选择和预期行为,为企业
制定合理的竞争策略。
国际关系
03
利用博弈模型分析国际关系中的利益关系和冲突解决机制,为
国际关系管理提供理论支持。
THANKS
猎鹿博弈
总结词
描述两个猎人合作与竞争的关系,揭示了合作与背叛的平衡。
详细描述
在猎鹿博弈中,两个猎人一起打猎,猎物可以平分。如果一个猎人选择合作而另一个选择背叛,则背叛者可以独 吞猎物。但如果两个猎人都不合作,则都没有猎物可吃。最佳策略是合作,但个体理性可能导致两个猎人都不合 作,造成双输的结果。
03
智猪博弈
总结词
描述大猪与小猪在食槽竞争中的策略,揭示了合作与竞 争的平衡。
详细描述
在智猪博弈中,一个大猪和一个小猪共同生活在一个猪 圈里。每天都有一桶食物放在食槽中,大猪和小猪需要 竞争才能吃到食物。如果大猪和小猪同时到达食槽,大 猪会因为体型优势占据更多食物。但如果小猪先到食槽 等待,大猪到来时已经没有食物可吃。最佳策略是小猪 等待,大猪先吃,然后小猪再吃剩下的食物。
博弈模型的基本要素
参与者
在博弈中作出决策和行动的个体或组织。
策略
参与者为达到目标而采取的行动或决策。
支付
参与者从博弈中获得的收益或损失。
均衡
在博弈中,当所有参与者都选择最优策略时,达到的一种稳定状态。
博弈模型的建立过程
策略空间
确定每个参与者的所有可能采 取的策略。
均衡分析
通过分析收益函数和策略空间 ,找出博弈的均衡点。

数学建模博弈模型PPT31页

数学建模博弈模型PPT31页

谢谢你的阅读
❖ 知识就是财富 ❖ 丰富你的人生
71、既然我已经踏上这条道路,那么,任何东西都不应妨碍我沿着这条路走下去。——康德 72、家庭成为快乐的种子在外也不致成为障碍物但在旅行之际却是夜间的伴侣。——西塞罗 73、坚持意志伟大的事业需要始终不渝的精神。——伏尔泰 74、路漫漫其修道远,吾将上下而求索。——屈原 75、内外相应,言行相称。——韩非
数学建模博弈模型
16、自己选择的路、跪着也要把它走 完。 17、一般情况下)不想三年以后的事, 只想现 在的事 。现在 有成就 ,以后 才能更 辉煌。 19、学习的关键--重复。
20、懦弱的人只会裹足不前,莽撞的 人只能 引为烧 身,只 有真正 勇敢的 人才能 所向披 靡。

数学建模博弈模型

数学建模博弈模型

λ↑,报童利润↑ ,报社利润↓ 利润的任意分配比例都可达到
回收协议模型
模型一 回收价格协议 回收价b (p>w>b>v) 整体最优
pw F (Qr ) p b
原订货量
pw F (Qr ) pv
pc F (Q ) pv
*
达到协调
pc pw p v p b
cv w wb (b) b ( p b) pv
• 双方总能成交吗?(效率估计)
模型假设与建立
• 卖方知道物品对自己的价值,但买方不知道. • 买方知道物品对自己的价值,但卖方不知道. • 双方都知道(如猜出)对方价值的分布信息. 卖方价值vs, 买方价值vb, 均服从 [0,1] 上的均匀分布
卖方报价ps, 买方报价pb, pb ≥ ps时成交价p= (pb+ps)/2 成交效用:卖方U1=p- vs, 买方U2= vb –p; 不成交: 0
0 0
xF ( x) |0 F ( x)dx Q (1 F (Q )) Q F ( x)dx
期望存货量
I (Q) Q S (Q) F ( x)dx
0
Q
期望利润 G(Q) pS(Q) vI (Q) wQ ( p v)S (Q) (w v)Q 最优订购量Qr
pc 假设报社与报童联合,整体利润最大 F (Q ) pv pw *>c Q (w*) <Q* F (Qr ) 一般w r pv 整体利润有损失 能否改善(协调)?
*
价格折扣协议模型
折扣方案wd(Q) 下,报童效用(期望利润)
U r ( wd (Q)) ( p v)S (Q) ( wd (Q) v)Q

博弈模型计算

博弈模型计算
博弈模型计算是一种对决策问题进行数学建模和计算的方法。

在现实生活中,人们常常需要面对各种决策问题,比如投资决策、定价决策、资源分配等。

博弈模型计算可以帮助人们更好地理解问题的本质,找到最优的决策方案。

博弈模型计算主要包括两个部分:博弈模型和计算方法。

博弈模型是对决策问题进行数学建模的过程,它需要考虑参与决策的各方的利益、策略和行为,以及他们之间的相互影响。

博弈模型可以是简化的数学模型,也可以是复杂的博弈论模型。

计算方法则是使用数学工具对博弈模型进行求解的过程,它可以是数值计算方法、优化算法等。

在实际应用中,博弈模型计算可以帮助企业进行市场定价决策。

比如一个公司需要确定产品的售价,以最大化自己的利润。

这个问题可以用博弈模型来建模,考虑市场竞争对手的定价策略和消费者的购买行为,然后使用数学工具来计算出最优的定价方案。

博弈模型计算也可以帮助政府进行资源分配决策。

比如一个政府需要确定某
项资源的分配方案,以最大化社会效益。

这个问题可以用博弈模型来建模,考虑各方的利益和影响,然后使用数学工具来计算出最优的资源分配方案。

总的来说,博弈模型计算是一个强大的工具,可以帮助人们更好地理解和解决决策问题。

通过对决策问题进行数学建模和计算,可以找到最优的决策方案,提高决策的科学性和有效性。

随着计算机技术的发展,博弈模型计算在各个领域的应用也会更加广泛。

博弈模型及竞争策略简介

博弈模型及竞争策略简介博弈模型是用来分析决策者之间相互作用关系的数学工具。

在经济学中,博弈模型被广泛应用于研究市场竞争和企业策略等问题。

本文将介绍博弈模型的基本概念和基本原理,并介绍一些常见的博弈模型和竞争策略。

博弈模型的基本概念和基本原理:博弈模型是一种描述决策者行为和相互作用的数学工具。

博弈模型主要包括决策者、行动、支付函数和解的概念。

决策者是指参与博弈的个体或组织,他们根据自身利益和目标做出决策。

行动是指决策者可以选择的各种行为方式。

支付函数是用来衡量每个决策者在不同行动组合下的效用或收益。

解是指在博弈中各个参与者都做出最佳决策的状态。

博弈模型的基本原理包括理性选择、均衡和解的概念。

理性选择是指决策者根据自己的目标和利益做出决策,不会做出明显损害自己利益的决策。

均衡是指在博弈中各个决策者做出的决策组合是相互一致的,没有一个决策者可以通过改变自己的决策而提高自己的效用。

解是指在博弈中各个参与者都做出最佳决策的状态,也就是说没有一个决策者可以通过改变自己的决策而提高自己的效用。

博弈模型有多种解的概念,例如纳什均衡、帕累托最优、卓亚定理等。

常见的博弈模型和竞争策略:最常见的博弈模型是纳什均衡模型。

纳什均衡是指在博弈中各个决策者做出的决策组合是相互一致的,没有一个决策者可以通过改变自己的决策而提高自己的效用。

在纳什均衡下,每个决策者都采取了最优的个体策略,而无法通过改变策略来获得更高的效用。

博弈模型还包括零和博弈模型和非零和博弈模型。

零和博弈模型是指在博弈中各个决策者的利益是完全相反的,一个决策者的收益就是另一个决策者的损失。

非零和博弈模型是指在博弈中各个决策者的利益不完全相反,存在一定的合作和竞争关系。

在实际应用中,博弈模型常常用于研究市场竞争和企业策略问题。

市场竞争模型是一种描述市场中企业之间相互作用关系的博弈模型,它可以用于研究市场价格形成、市场份额分配等问题。

企业策略模型是一种描述企业之间相互作用关系的博弈模型,它可以用于研究企业的定价、产品开发、市场推广等问题。

数学建模优秀讲座课件之博弈论



Page 20
囚徒困境可以用来说明许多现象。
• 广告战
两个公司互相竞争,二公司的广告互相影响,即一 公司的广告较被顾客接受则会夺取对方的部分收入。但 若二者同时期发出质量类似的广告,收入增加很少但成 本增加。但若不提高广告质量,生意又会被对方夺走。
此二公司可以有二选择:
互相达成协议,减少广告的开支。(合作)
Page 14
纳什均衡的定义
• 纳什均衡简单说就是,一策略组合中,所有的参与 者面临这样的一种情况:当其他人不改变策略时, 他此时的策略是最好的。也就是说,此时如果他改 变策略,他的支付将会降低。 在纳什均衡点上,每一个理性的参与者都不会有单 独改变策略的冲动。
Page 15
•寻找纳什均衡的方法———条件策略下画线法
Page 17
假设有两个小偷A和B联合犯事、私入民宅 被警察抓住。警方将两人分别置于不同的两个 房间内进行审讯,对每一个犯罪嫌疑人,警方 给出的政策是:如果两个犯罪嫌疑人都坦白了 罪行,交出了赃物,于是证据确凿,两人都被 判有罪,各被判刑8年;如果只有一个犯罪嫌 疑人坦白,另一个人没有坦白而是抵赖,则以 妨碍公务罪(因已有证据表明其有罪)再加刑 2年,而坦白者有功被减刑8年,立即释放。如 果两人都抵赖,则警方因证据不足不能判两人 的偷窃罪,但可以私入民宅的罪名将两人各判 入狱1年。
-3y+2(1-y)=2y+(-1)*(1-y)
解的:
y=3/8,
而美女每次的期望收益则是2(1-y)-3y=1/8元。
Page 28
由以上结果可知,在双方都采取最优策略的情 况下,平均每次美女赢1/8元。其实只要美女采取 了(3/8,5/8)这个方案,不论你再采用什么方案,都 是不能改变局面的。

数学博弈中的博弈模型及其数学分析方法

数学博弈中的博弈模型及其数学分析方法在现代游戏中,数学博弈是一个重要的研究领域。

它既是游戏理论的一个分支,也是数学、计算机科学等多学科交叉的领域。

本文将介绍数学博弈中的博弈模型以及对其进行数学分析的方法。

博弈模型首先,我们需要了解什么是博弈模型。

博弈模型是游戏规则的数学表达式。

它描述了博弈参与者的策略、收益和行为。

在博弈模型中,博弈参与者根据对手的行为和自己的策略来做出决策。

最终的目标是获得最大的收益。

在博弈理论中,最常见的博弈模型是标准博弈模型。

它是指两个参与者在同时做决策的情况下,根据对手的行为,来获得不同的收益。

标准博弈模型中最常见的是囚徒困境和纳什均衡。

囚徒困境是指两个罪犯在没有相互通信的情况下,被警察分别审讯。

如果两人都保持沉默,则两个人都会得到轻判。

但如果一方供出另一方,则供出者将获得无罪释放,而被供出者将面临重判。

如果两人都供出了对方,那么两人都面临重罚。

在囚徒困境中,最优策略是相互合作,即使对方供出自己也要坚持保持沉默。

因为只有这样,双方才可以得到最小化的惩罚。

纳什均衡是指一个博弈中,所有参与者根据对手的策略来选择自己的策略时,出现的稳定状态。

也就是说,每个参与者在所处的状态不会改变策略,因为他们均认为自己的选择是最优的。

在标准博弈模型中,纳什均衡是博弈参与者达到收益最大化的一种稳定状态。

数学分析方法在博弈模型中,博弈参与者的策略和收益是数学函数。

因此,数学方法也可以应用于博弈模型的分析和解决。

例如, Nash提出的博弈论的主要工具是纳什均衡的存在性定理,计算量子博弈中纳什均衡解的算法主要是基于无限迭代和收敛方法等数学方法的。

将博弈模型转化为数学问题的主要方法是建立数学模型和求解方程组。

因此,数学分析方法需要涉及概率论、线性代数、微积分等数学领域。

在具体的分析过程中,则需要运用游戏理论、最优化理论、动态规划等方法,来找到最优的策略。

结语数学博弈模型的研究,不仅只有理论意义,更具有广泛的应用前景。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

4﹒矩阵对策的解 定义1 设G={S1 , S2;A}为矩阵对策,其中 S1={α1,α2, …,αm},S2={ β 1, β 2, …, β n} , A= (aij)m×n 若等式 max min aij=min max aij =ai*j*
i j j i
成立,记VG= ai*j* 。则称VG为对策G的值,称上 述等式成立的纯局势( α i* , β j* )为G在纯策略下的 解(或平衡局势), α i*与β j*分别称为局中人Ⅰ﹑Ⅱ 的最优纯策略。
问题一求解
10.2 进攻与撤退的抉择
背 景
• 1944年6月初,盟军在诺曼底登陆成功. • 到8月初的形势:
盟军(加一)
盟军(英二)
盟军(美一) 强 化 盟军 缺口 (预备队)
德军 进攻
撤退
东进
原地 待命
盟 军 ( 美三 )
双方应该如何决策 ?
问题分析与模型假设
• 对策参与者为两方(盟军和德军) • 盟军有3种使用其预备队的行动:强化缺口,原地 待命,东进;德军有2种行动:向西进攻或向东撤退. • 对策双方完全理性,目的都是使战斗中己方获得 的净胜场次(胜利场次减去失败场次)尽可能多.
i 1
T 3 2

2
E1 ( x, y) xAy xi aij y j
i 1 j 1
E2 ( x, y) E1 ( x, y)
局中人Ⅰ求解 局中人Ⅱ求解
10.3二人常数和对策模型
在晚8点至晚9点这时间段,两家电视台在竞争 100万电视观众收看自己的电视节目,并且电视台必须 实时公布自己在下一时段的展播内容,电视台1可能选 择的展播方式及可能得到的观众如下表
10.1
二人零和对策
1﹒二人有限零和对策: 是指有两个参加对策的局中人, 每个局中人都只有有限个策略可供选择,在任一局势 下,两个局中人的赢得之和总等于零。 2﹒二人零和对策模型(矩阵对策模型) 设Ⅰ﹑Ⅱ分别表示两个局中人,且它们的纯策略 集分别为S1={α1,α2, …,αm}和S2={ β 1, β 2, …, β n}。记局 中人Ⅰ对任一纯局势( αi, β j )的赢得值为aij,并称 a11 a12 …a1n 为局中人Ⅰ的赢得矩阵。 . . … . A= am1 am2 …amn 局中人Ⅱ的赢得矩阵为﹣A。 通常,将矩阵对策记成G={Ⅰ,Ⅱ;S1 , S2;A} 或G={S1 , S2;A} 。
对策行为的三要素
1﹒局中人
在一个对策行为中,有权决定自己行动方案的对 策参加者,称为局中人。通常用I表示局中人的集合。 如果n个局中人,则I={1,2,…,n}。它可以是一个 人,也可以是一个集团或一个自然现象。 2﹒策略集
一局对策中,可供局中人选择的一个实际可行 的完整的行动方案,称为一个策略。设i为局中人,i 的所有策略构成的集合Si称为i的策略集。
根据定义1可知,上例中( α 2 , β2 )是在纯策 略下的解。对策值VG=a22=2 ,i*=2,j*=2 。
定理1 矩阵对策G={S1 , S2;A}在纯策略意义下有解 的充要条件是:存在纯局势( α i* , β j* )使得对一切 i=1,2, …,m, j=1,2, …,n, 均有aij*≤ ai*j* ≤ ai*j 。 定理的直观解释:如果ai*j*既是矩阵A=(aij)m×n中 第i*行的最小值,又是第j*列的最大值,则ai*j*是对策 的值,且(α i* , β j* )是在纯策略意义下的解。 定理的对策意义:一个平衡局势(α i* , β j* )具有 这样的性质,当局中人Ⅰ 选择了纯策略α i* 后,局中 人Ⅱ为了其所失 最小,只能选择β j* ,否则就可能失 去更多;反之,当局中人Ⅱ 选择了纯策略β j* 后,局 中人Ⅰ为了得到 最大的赢得,只能选择α i* ,否则就 会赢得更少 。双方在局势(α i* , β j* )下达到一个平衡 状态。
问题二:囚徒困境 甲乙两个嫌疑犯因同一罪行被逮捕,如果双方均 坦白,则各获刑3年,如果双方均不坦白,则各获刑 2年,如果其中一人坦白,另一人不坦白,则坦白一 方宽大释放,另一方获刑5年,两个嫌疑犯各自应采 取什么策略才能使自己的刑期最短。 问题分析:问题中所涉及的要素
(1)决定者—甲、乙嫌疑犯两人; (2)可用的决定—坦白、不坦白; (3)甲乙的收益(支付)--获刑年数 。
3﹒局中人如何选取对自己最有利的纯策略?
①局中人的“理智行为” 双方都不想冒险,都不存在侥幸心理,而是考虑 到对方必然会设法使自己的所得最小,从各自可能出 现的最不利的情形中选择一种最为有利的情形作为决 策的依据。 ②选择原则
局中人Ⅰ按最大最小原则,局中人Ⅱ按最小最大 原则。即局中人Ⅰ从所有最小的赢得中选择最大的赢 得的策略,局中人Ⅱ从所有最大的损失中选择最小的 损失的策略。
3.混合对策求解方法 下列线性规划问题的解就是局中人Ⅰ的最优混 合策略x*
max v1
m ∑ aijxi ≥ v1 , j=1,2, …,n i=1 m ∑ xi = 1 i=1 xi≥0 , i=1,2, …,m
问题一求解
3.混合对策求解方法 下列线性规划问题的解就是局中人Ⅱ的最优混 合策略y* min v2 n ∑ aijyj ≤ v2 , i=1,2, …,m j=1 n ∑ yj =1 j=1 yj≥0 , j=1,2, …,n
电 视 台 1
西部片 连续剧 喜剧片
电视台2 西部片 连续剧 35 15 45 58 38 14
喜剧片 60 50 70
试确定两家电视台各自的策略
10.4二人非常数和对策模型
囚徒困境:甲乙两个嫌疑犯因同一罪行被逮捕,如 果双方均坦白,则各获刑3年,如果双方均不坦白, 则各获刑2年,如果其中一人坦白,另一人不坦白, 则坦白一方宽大释放,另一方获刑5年,两个嫌疑犯 各自应采取什么策略才能使自己的刑期最短。 双矩阵对策记成G={S1 , S2;A,B} 。两个局中 人,的纯策略集分别为S1={α1,α2, …,αm}和S2={ β 1, β 2, …, β n},A、B分别为局中人Ⅰ和Ⅱ的赢得矩阵。
A {aij }32
1 0 2 0 2 1
无鞍点
混合策略
盟军的混合策略集
S1={x=(x1, x2, x3) | 0 xi 1, xi 1 }
i 1 3
德军的混合策略集 S2={ y=(y1, y2) 赢得函数 | 0 yi 1, yi 1 }
2﹒双矩阵对策G在混合策略意义下的解 设G*={S1*, S2*;E1,E2}是矩阵对策G={S1, S2;A,B} 的混合扩充,如果存在x*∈ S1* ,y*∈ S2*,使得对一切 x∈ S1* ,y∈ S2*,有 E1 (x,y*) ≤ E1 (x*,y*) E2 (x*,y) ≤ E2 (x*,y*)
局中人Ⅰ的赢得函数记成 m n E(x,y)=xAyT = ∑ ∑ aijxiyj i=1 j=1 这样得到的一个新的对策记成G*={S1*, S2*,E},称G* 为对策G的混合扩充。
1﹒纯策略与混合策略的关系
①纯策略是混合策略的特例。局中人Ⅰ的纯策略αk 等价与混合策略x=(x1﹐ x2﹐ …﹐ xm) ∈ S1*,其中当 i=k时,xi =1,当i≠k时,xi =0 。 ②混合策略x=(x1﹐ x2﹐ …﹐ xm)∈ S1*,可设想成当 两个局中人多次重复进行对策G时,局中人Ⅰ分别 采取纯策略α1,α2, …,αm的频率。
第十讲
对策模型
10.1 二人零和对策模型
10.2 进攻与撤退的选择 10.3 二人常数和对策模型 10.4 二人非常数和对策模型
对策行为
问题一: 甲、乙两名儿童玩“石头—剪子—布”的游戏。 石头胜剪子,剪子胜布,布胜石头。那么,甲、乙 儿童如何做,使自己获胜的可能最大? 问题分析:问题中所涉及的要素 (1)游戏决定者—甲、乙儿童两人; (2)游戏者的决定—石头、剪子、布; (3)游戏的收益(支付)--胜得分为 1,负得分为 -1,平得分为 0 。
德军 盟军 强化缺口 原地待命 东进 向西进攻 盟军胜1场 盟军胜2场 盟军败2场 向东撤退 无战斗 无战斗 盟军胜1场

对策模型
• 对策参与者集合N={1,2}(1为盟军,2为德军) • 盟军行动S1={α1,α2, α3}(强化缺口/原地待命/东进); 德军行动S2={ β 1, β 2,} (向西进攻/向东撤退)
例 设有一矩阵G={S1 , S2;A},其中S1={α1,α2, α3, α4} 和S2={ β 1, β 2, β 3} 局中人Ⅰ的赢得矩阵为 ﹣6 1 ﹣8 3 2 4 求出局中人Ⅰ﹑Ⅱ的最优策略。 A= 9 ﹣2 ﹣10 ﹣3 0 6 解:根据选择的原则,分析局中人的选择的策略 ⑴局中人Ⅰ的策略:纯策略α1,α2, α2, α4可能带来的最 小赢得分别﹣8,2,﹣10,﹣3 所以,最小赢 得中最大的值为2。因此局中人Ⅰ的策略应为α2 ⑵局中人Ⅱ的策略:纯策略β 1, β 2, β 3可能带来的最大 损失分别9,2,6 。 所以,最大损失中最小的值为2。 因此局中人Ⅱ的策略应为β 2 。 总之,局中人Ⅰ﹑Ⅱ的最优察纯策略分别为α2 ,β 2。
矩阵对策的混合策略
定义3 设G={S1 , S2;A}为矩阵对策,其中 S1={α1,α2, …,αm},S2={ β 1, β 2, …, β n} ,A=(aij)m×n 。 m ∑ xi = 1 } S1*={x∈Em | xi≥0 , i=1,2, …,m , i=1 n ∑ yj =1 } S2*={y∈En | yj≥0 , j=1,2, …,n , j=1 则S1*和 S2*分别称局中人Ⅰ和Ⅱ的混合策略集(或策 略集); x∈ S1*, y∈ S2*分别称为局中人Ⅰ和Ⅱ的 混合策略;对x∈ S1*, y∈ S2*,称(x,y)为一个混合 局势(或局势)。 记
2﹒矩阵对策G在混合策略意义下解的定义
相关文档
最新文档