运筹学博弈论()
博弈论(TheGamesTheory)是运筹学学科的一个重要分支。

博弈论(The Games Theory)是运筹学学科的一 个重要分支。具有竞争或对抗性质的行为称为博 弈行为,在这类行为中,参与斗争或竞争的各方 各自具有不同的目标和利益,为了达到各自的目 的,各方必须考虑对手的各种可能的行动方案, 并力图选取对自己最为有利或最合理的方案。 博弈论就是研究博弈行为中,斗争各方是否存在 最合理的行动方案,以及如何找到这个合理方案 的理论和方法。
囚徒困境问题
甲和乙两个小偷联手作案,因私入民宅被警方抓住 但未获证据。警方将两人分别置于两间房间分开审 讯,政策是若一人招供但另一人未招,则招者立即
被释放,未招者判入狱10年;若二人都招,则两人 各判刑8年;若两人都不招,则未获证据但因私入 民宅各拘留1年。将这些数据列出,如下:
囚徒困境博弈
在现实生活中,经常可以看到一些具有对抗和竞争性 的现象,如体育比赛、军事斗争中双方兵力的对抗, 各公司企业之间的经济谈判以及为争夺市场而进行的 竞争等等。在竞争过程中,各方为了达到自己的目标 和利益,必须考虑对手的各种可能的行动方案,并力 图选取对自己最为有利或最为合理的方案,也就是说 要研究采取对抗其他竞争者的策略。从数学角度来说, 博弈论就是研究竞争行为中的竞争各方是否存在着最 合理的行动方案,以及如何找到这个合理的行动方案 的数学理论和方法。
5.1 博弈论的基本概念
博弈论是矛盾和合作的规范研究,是系统研究决策主 体的行为发生直接相互作用情况下的决策以及这种决 策均衡的理论. 也就是说,当一个决策主体的选择受 到其他决策主体选择的影响,并且它的.
博弈论思想的主要特征是各参与人所实施的行为方案 (策略)相互依存,各方在冲突或合作后所实现的得 失结果不仅取决于自己所采用的行为方案,同时也依 赖于其他参与人所采用的行为方案,它是各参与人行 为方案组合的函数.
运筹学博弈论

不完全信息
不完全信息静态博弈 贝叶斯纳什均衡
代表人物:海萨尼(1967-1968)
动态
完全信息动态博弈 子博弈精炼纳什均衡 代表人物:泽尔腾(1965)
不完全信息动态博弈 精炼贝叶斯纳什均衡 代表人物:泽尔腾(1975) 克瑞普斯和威尔逊(1982) 费登伯格和泰勒尔(1991)
精品
智猪博弈(大小猪博弈)
精品
5. 2001年诺贝尔经济 学奖得主:迈克尔 ·斯 宾塞:在不对称信息市 场分析方面所做出开创 性研究。
精品
6. 2005年二位获诺奖的博弈论学者
Robert Aumann
Thomas Shelling
精品
10.1.2 博弈及博弈论
博弈就是策略对抗,或策略有关键作用的游戏
博弈Game,博弈论Game Theory,Game即游戏、竞技 游戏和经济等决策竞争较量的共同特征:规则、结果、策
略选择,策略和利益相互依存,策略的关键作用 游戏——下棋、猜大小 经济——寡头产量决策、市场阻入、投标拍卖 政治、军事——美国和伊拉克、以色列和巴勒斯坦
精品
定义:博弈就是参与人(可能是个人,也可能是团体, 如国家、企业、国际组织等)在一定得规则下,同时 或先或后,一次或多次,从各自允许选择的行动或战 略中进行选择并加以实施,而取得相应结果(支付函 数)的过程。
精品
10.2.2 重复剔除的占优战略均衡
首先找出某一博弈参与人的严格劣战略,将它剔除 掉,重新构造一个不包括已剔除战略的新的博弈; 然后继续剔除这个新的博弈中某一参与人的严格劣 战略;重复进行这一过程,直到剩下唯一的参与人 战略组合为止。这个唯一剩下的参与人战略组合, 就是这个博弈的均衡解,称为“重复剔除的占优战 略均衡”(iterated dominance equilibrium).
对策论(Theory of Games)

定义
并不是所有的对策都存在鞍点,如 A为齐王的赢得矩阵 3 1 1 1 1 -1 1 3 1 1 -1 1 A= 1 -1 3 1 1 1 -1 1 1 3 1 1 1 1 -1 1 3 1 1 1 1 -1 1 3 max(min aij)= -1 min (max aij)=3 i j j i
例如:
• 给定矩阵对策
6 5 6 A 1 4 2 8 5 7
对策的最优值为5,对策的解有两个,分 别为局势 , 和 , 。
1 2 3 2
(三)矩阵对策的混合策略
1、矩阵对策的混合策略的定义
2、原则:坏中求好的原则。 3、解的存在:一定有解 4、混合策略求解:利用期望转化成 线性规划问题求解。
三、矩阵对策模型
(一)矩阵对策的概念 (二)矩阵对策的最优纯策略 (三)矩阵对策的混合策略 (四)矩阵对策的解法
(一)矩阵对策的概念 1、矩阵对策的定义 2、建立矩阵对策模型
1、矩阵对策的定义 局中人只有两个,对策中各方只能从有限 的策略集中确定性的选择一种,且对策双 方的支付之和为零的对策称为两人零和纯 策略对策。
表2
齐 王 上中 下 田忌 上中下 3 上下 中上 中 下 1 1 中下 上 -1 下中 上 1 下上 中 1
上下中 1 中上下 1
中下上 1 下中上 1
3 1
1 -1
-1 3
1 1
1 1
3 1
1 -1
1 3
1 1
-1 1
下上中 -1
1
1
1
1
3
引例3
有两个儿童A和B在一起玩“石头-剪子布”游戏。我们规定胜者得1分,负者得 -1分,平手时各得0分。双方选定的各种 出法及相应的结果可由下表列出。双方 应取何种策略?
运筹学第13章博弈论(20141202版)-课件

进 大将军
退
大英雄
进
退
-3, -3
2, 0
0, 2
0, 0
第1节 博弈论概论│什么是博弈论
1.1.2 引例 斗鸡博弈(懦夫博弈)ቤተ መጻሕፍቲ ባይዱ
独木桥
冷战期间美苏抢占地盘,一方抢占一块地盘,另一方就占另一块。 夫妻吵架,一方厉害,另一方就出去躲躲。
第1节 博弈论概论│什么是博弈论
第1节 博弈论概论│什么是博弈论
1.1.2 引例 囚徒困境与苏美争霸
美国
不扩军备战 扩军备战
不扩军备战 (10, 10) (100, -100)
前苏联
在苏美争霸博弈中,美国和前苏联都处于“囚徒困境”中。
扩军备战 (-100, 100)
(0,0)
第1节 博弈论概论│什么是博弈论
1.1.2 引例
智猪博弈
第1节 博弈论概论│什么是博弈论
1.1.3 博弈论的概念 博弈论(game theory):研究利益存在冲突的决策主体在相互依赖的条件下,如何选择适
当的策略实施以获得最大利益的思想和方法。 1 研究对象不是客观规律,而是带有主动性的人的活动。
2 最优不是绝对的,而是现有主客观条件下的理想结果。
第1节 博弈论概论│什么是博弈论
第1节 博弈论概论│什么是博弈论
1.1.2 引例
囚徒困境是图克(Tucker)1950年提出的,该博弈是博弈论最经典、著名的博弈。该
博弈本身讲的是一个法律刑侦或犯罪学方面的问题,但可以扩展到许多经济问题,以及
各种社会问题。
坦白
囚徒 B
不坦白
囚徒 A
坦白 不坦白
-5, -5 -10, -1
应用运筹学-博弈论

待宰的猴群
在一个笼子里关了一群猴子,主人每过一天就 打开笼子抓一只猴子去杀掉。每天主人来时, 每个猴子都紧张,它们不敢有任何举动,怕引 起主人的注意而被主人选中。当主人把目光落 在其中一只猴子身上时,其余的猴子就希望主 人赶快决定。当主人最终作出决定时,没有被 选中的猴子非常高兴。那个被选中的猴子拼命 反抗,其余猴子在一旁幸灾乐祸地观看,这只 猴子被杀掉了。这样的过程日复一日地进行着 ,最终猴子全部被宰杀掉了。
策略性思维 ——博弈概论
决策无处不在
工作,即便只是社交生活,也可以看做是一 个永无止息的决策过程; 通常人们的决策面临两种决策环境:比较伐 木工人和一个将军的决策会有什么区别:
– 伐木工人的工作环境是中立的,没有对抗; – 而将军的任何一种行动都会遭遇对手的抵抗;
研究前者的方法是决策论 研究后者的是博弈论
光天化日之下的违法
在现实社会中,窃贼在公共场所比如公共 汽车上偷东西时,车上的乘客看到了,但 不敢吭声。没有被偷的人想,反正被偷的 待宰猴群的结局人不是我,我反抗了,我 得不到任何好处,反而遭到伤害;而不反 抗虽不得益,但也不受损,我何必要反抗 呢?这就是光天化日之下的偷窃行为为什 么总能成功的原因。
囚徒困境说明了什么
在(坦白、坦白)这个组合中,两囚徒A和B 都不能通过单方面的改变行动增加自己的收益 ,于是谁也没有动力游离这个组合,因此这个 组合是纳什均衡,也叫非合作均衡。
囚徒困境反映了个人理性和集体理性的矛盾。 如果A和B都选择抵赖,各判刑1年,显然比 都选择坦白各判刑8年好得多。当然,A和B 可以在被警察抓到之前订立一个"攻守同盟", 但是这可能不会有用,因为它不构成纳什均衡 ,没有人有积极性遵守这个协定,显然最好的策 略是双方都抵赖.
第九章 运筹学博弈论 ppt课件

则。
1988年 法国人莫里斯-阿莱斯(Maurice Allais)
获奖理由:在市场理论及资源有效利用方面做出了
开创性贡献,并对一般均衡理论重新做了系统阐述。
1987年 美国人罗伯特-索洛(Robert M. Solow)
获奖理由:对增长理论做出贡献。提出长期的经济
增长主要依靠技术进步,而不是依靠资本和劳动力的
获奖理由:对不同汇率体制下的货币和财政政策以及最
优货币区域的分析做出了伟大贡ppt献课件。
8
1998年 印度籍经济学家阿马蒂亚-森(Amartya Sen) 获奖理由:对福利经济学以及发展经济学做出了突破
性贡献。 1997年 美国经济学家迈伦-斯科尔斯(Myron S.
Scholes)和罗伯特-默顿(Robert C. Merton) 获奖理由:前者给出了著名的布莱克-斯科尔斯期权
获奖理由:在动态宏观经济学方面做出了
巨大贡献。 2003年 美国经济学家罗伯特-恩格尔
(Robert F. Engle III)和英国经济学家克莱夫格兰杰(Clive W.J. Granger)
获奖理由:在经济时间数列中运用了统计
学的方法。
ppt课件
7
2002年 美国学者丹尼尔-卡尼曼(Daniel Kahneman)和弗农-
ppt课件
4
在国外,1912年E.Zermelo用集合论研究过下棋 问题,四十年代由于生产和战争的需要,博弈理 论得到了发展,系统博弈理论的形成则以1944 年V.Neumann,O.Morgensten合著的《博弈论 和经济行为》一书为标志.1994年瑞士皇家科 学院决定将诺贝尔经济学奖授予纳什(Nash),哈 萨尼(Harsanyi)和泽尔腾(Selten)三人,表彰他们 在博弈理论和应用研究方面作出的杰出贡献. 目前,博弈论在定价,招投标,拍卖,委托代理以及 很多重要的经营决策中得到应用,它已成为现代 经济学的重要基础.
博弈论

博弈论研究的主题是:理性人的互动行为。
博弈论作为一种解释力非常强的理论有三个基本假定:1 、理性人假定;2 、利益相关性假定; 3 、每个人是理性的是所有参与者的公共知识。
博弈论是一门数学,这是博弈论的学科特点。
主要有三种博弈:零和博弈;变和博弈;常和博弈。
对于任何一个博弈来说,都有一个均衡点,也就是那什均衡,那什均衡是博弈的解。
博弈论中的典型例子:囚徒困境。
囚徒困境在博弈论中有一个经典案例--囚徒困境,非常耐人寻味。
“囚徒困境”说的是两个囚犯的故事。
这两个囚徒一起做坏事,结果被警察发现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。
在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(即与警察合作,从而背叛他的同伙),或者保持沉默(也就是与他的同伙合作,而不是与警察合作)。
这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。
但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。
而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。
当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。
那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。
但他们不得不仔细考虑对方可能采取什么选择。
A犯不是个傻子,他马上意识到,他根本无法相信他的同伙不会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。
这种想法的诱惑力实在太大了。
但他也意识到,他的同伙也不是傻子,也会这样来设想他。
所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。
运筹学博弈论简介

合作博弈
非合作博弈
二)按局中人数分 类:
二人博弈 多人博弈
三)按策略数分 类:
•有限策略博弈 •无限策略博弈
二人非合作博 弈是我们讨论的重 点。
非合作博弈的进一步分类
非合作博弈
非零和的四种博弈
零和博弈
也可以有纯策略和混合
– 纯策略博弈 策略博弈之分。
策略—前进或后退
支付函数
斗鸡B
前进 后退
前进 -3/-3 2/0
斗鸡A
后退 0/2 0/0
五、博弈论的典型例子
市场进入阻挠—二人非合作非零和纯策略博弈
局中人—在位者和进入者 策略—在位着:容忍或斗争;进入者:进入或不进入 支付函数—垄断利润300,寡头利润各50;进入成本10
进入 进入者
不进入
在位者 容忍 斗争
– 混合策略博弈
非零和博弈
动态时行动和策略
– 完全信息博弈 不同,要素有五个;而
静态博弈
静态时行动与策略不加
动态博弈
区别,要素有三个。
– 不完全信息博弈
静态博弈
动态博弈
四、博弈论发展史的要件
1944年,von Neumann and Oskar Morgenstern 发表专著 The Theory of Games and Economic Behavior创立了博弈论
2000 -40万 -40万 -40万
五、博弈论的典型例子
齐王赛马—二人非合作零和博弈
局中人—齐王和田忌 策略—上中下三种等级的马的组合 ,比三
次,有六组策略:(上,中,下)、 (中,上, 下)、 (上,下,中)、 (中,下,上)、 (下, 上,中)、 (下,中,上)