博弈论game theory

合集下载

博弈论定义与主要思想

Selten and Harsanyi
泽尔腾（1965）将纳而海萨尼则发展了刻
什均衡的概念引入了动态分析，提出了 “精炼纳什均衡”概念；以及进一步刻画不完全信息动态博弈的 “完备贝叶斯纳什均
画不完全信息静态博弈的“贝叶斯纳什均衡”（1967－1968）。总之，他俩进一步将纳什均衡动态化，加入了接近实际的不完全信息条件。他们的
著名经济学家保罗.萨缪尔森说：“要想在现代社会做一个有文化的人，您必须对博弈论有一个大致了解。”
我们从博弈中学习什么
博弈论告诉人们，要学会理解他人都有自己的思想，每个个体都是理性的，所以必须了解竞争对手的思想。商业关系被认为是一种相互作用。但博弈论并不是疗法，并不是处方，它并不告诉你该付多少钱买东西，这是计算机或者字典的任务。博弈论只是提供一些关系的例证，一些有用的解决问题的方法。这种思维方法也许是企业家应该学习的。对于经济学家，也许需要学习它的理论模型，它的实验方式。
2005年诺奖授予有以色列和美国双重国籍的罗伯特·奥曼和美国人托马斯·谢林，以表彰他们在博弈论领域作出的贡献。
主要思想
博弈论并不是经济学的一个分支，它只是一种方法，这也是为什么许多人将其看成数学的一个分支的缘故。
在对参与者行为研究这一点上，博弈论和经济学家的研究模式是完全一样的。经济学越来越转向人与人关系的研究，特别是人与人之间行为的相互影响和相互作用，人与人之间利益和冲突、竞争与合作，而这正是博弈论的研究对象。
4、信息指的是参与人在博弈中所知道的关于自己以及其他参与人的行动、策略及其得益函数等知识；
5、得益是参与人在博弈结束后从博弈中获得的效用，一般是所有参与人的策略或行动的函数，这是每个参与人最关心的东西；

博弈论百度百科

博弈论约翰·冯·诺依曼博弈论的概念博弈论又被称为对策论（Game Theory)，它是现代数学的一个新分支，也是运筹学的一个重要组成内容。

在《博弈圣经》中写到：博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略，达到取胜的意义。

按照2005年因对博弈论的贡献而获得诺贝尔经济学奖的Robert Aumann教授的说法，博弈论就是研究互动决策的理论。

所谓互动决策，即各行动方（即局中人[player]）的决策是相互影响的，每个人在决策的时候必须将他人的决策纳入自己的决策考虑之中，当然也需要把别人对于自己的考虑也要纳入考虑之中……在如此迭代考虑情形进行决策，选择最有利于自己的战略(strategy)。

博弈论的应用领域十分广泛，在经济学、政治科学（国内的以及国际的）、军事战略问题、进化生物学以及当代的计算机科学等领域都已成为重要的研究和分析工具。

此外，它还与会计学、统计学、数学基础、社会心理学以及诸如认识论与伦理学等哲学分支有重要联系。

按照Aumann所撰写的《新帕尔格雷夫经济学大辞典》“博弈论”辞条的看法，标准的博弈论分析出发点是理性的，而不是心理的或社会的角度。

不过，近20年来结合心理学和行为科学、实验经济学的研究成就而对博弈论进行一定改造的行为博弈论(behavoiral game theory )也日益兴起。

博弈论的发展博弈论思想古已有之，我国古代的《孙子兵法》就不仅是一部军事著作，而且算是最早的一部博弈论专著。

博弈论最初主要研究象棋、桥牌、赌博中的胜负问题，人们对博弈局势的把握只停留在经验上,没有向理论化发展，正式发展成一门学科则是在20世纪初。

1928年冯·诺意曼证明了博弈论的基本原理，从而宣告了博弈论的正式诞生。

1944年，冯·诺意曼和摩根斯坦共著的划时代巨著《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统的应用于经济领域，从而奠定了这一学科的基础和理论体系。

第七章博奕论(Game Theory教材课程

max
是
u1
即该博奕的纳什均衡解
max u 2
maxu1 maxu2
U1 Uq12
q2
6q2 6q1
2q1 2q2
0 0
的解，
求解上述方程组：
q 1 * q 2 * 2 , Q 4 u 1 1 , u 2 4 , u 1 u 2 8
标志着博奕论的初步形成。 50年代，合作博奕发展到鼎盛阶段，非合作博奕开始出现纳什和夏普里的讨价还价模型，塔克的“囚徒困境” 60年代以后，selten，Haysany，Krops，Wilseen
“信誉问题模型” （动态不完全信息博弈）最近十多年，博弈论几乎贯穿了整个微观经济学，产业组
织理论和企业制度理论，并扩展到宏观经济学，环境、劳动、福利经济学等领域。
新厂商的市场进入问题
B
打入
A
打击
（0，10）
和平共处
（－２，３）
（5，5）
6．博奕进程的信息
完美信息博奕：在动态博奕中，博弈方对博弈的进程，即次此行为前各博奕方的行为完全了解
非完美信息博弈：
完全信息博弈：博奕各方完全了解所有博奕方各种策略组合下得益情况非完全信息博弈：
7．2．2博弈的主要分类
1 3、赢得（利益）：参加博奕各方从博奕中所获得的利
益支付矩阵，博弈树
零和博奕：各博奕方赢得的代数和为零非零和博奕：各博奕方赢得的代数和不为零
4．均衡：所有博奕方的最优策略的组合
博奕分析的目的是使用博奕规则决定均衡
5．得益的信息
完全信息博奕：博奕各方完全了解所有博奕方各种策略组合下得益情况的博奕，如囚徒困境和田忌赛马。
7。3 完全信息静态博奕——纳什均衡

博弈论

博弈论是一种处理竞争与合作问题的数学决策方法；研究竞争中参加者为争取最大利益应当如何做出决策的数学方法；根据信息分析及能力判断，研究多决策主体之间行为相互作用及其相互平衡，以使收益或效用最大化的一种对策理论；研究决策主体的行为发生直接相互作用时候的决策以及这种决策的均衡问题。

博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略，达到取胜的目的。

博弈论思想古已有之，我国古代的《孙子兵法》就不仅是一部军事著作，而且算是最早的一部博弈论著作。

博弈论最初主要研究象棋、桥牌、赌博中的胜负问题，人们对博弈局势的把握只停留在经验上，没有向理论化发展。

博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。

近代对于博弈论的研究，开始于策墨洛（Zermelo），波雷尔（Borel）及冯·诺伊曼（von Neumann）。

1928年，冯·诺依曼证明了博弈论的基本原理，从而宣告了博弈论的正式诞生。

1944年，冯·诺依曼和摩根斯坦共著的划时代巨著《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统的应用于经济领域，从而奠定了这一学科的基础和理论体系。

1950～1951年，约翰·福布斯·纳什（John Forbes Nash Jr）利用不动点定理证明了均衡点的存在，为博弈论的一般化奠定了坚实的基础。

纳什的开创性论文《n人博弈的均衡点》（1950），《非合作博弈》（1951）等等，给出了纳什均衡的概念和均衡存在定理。

此外，塞尔顿、哈桑尼的研究也对博弈论发展起到推动作用。

今天博弈论已发展成一门较完善的学科。

博弈的分类根据不同的基准也有所不同。

一般认为，博弈主要可以分为合作博弈和非合作博弈。

它们的区别在于相互发生作用的当事人之间有没有一个具有约束力的协议，如果有，就是合作博弈，如果没有，就是非合作博弈。

从行为的时间序列性，博弈论进一步分为两类：静态博弈是指在博弈中，参与人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动；动态博弈是指在博弈中，参与人的行动有先后顺序，且后行动者能够观察到先行动者所选择的行动。

博弈论介绍 Game Theory

2. 生活中的“囚徒困境”例子
例子1 商家价格战例子1
出售同类产品的商家之间本来可以通过共同将价格维持在高位而获利，但实际上却是相互杀价，结果都赚不到钱。当一些商家共谋将价格抬高，消费者实际上不用着急，因为商家联合维持高价的垄断行为一般不会持久，可以等待垄断的自身崩溃，价格就会掉下来。
表2 智猪博弈小猪按按大猪等待 5,1 9, -1 等待 4,4 0,0
这个博弈大猪没有劣战略。但是，小猪有一个劣战略“按”，因为无论大猪作何选择，小猪选择“等待”是比选择“按”更好一些的战略。所以，小猪会剔除“按”，而选择“等待”；大猪知道小猪会选择“等待”，从而自己选择“按”，所以，可以预料博弈的结果是(按,等待）。这称为“ 重复剔除劣战略的占优战略均衡 ”，其中小猪的战略“等待” 占优于战略“按”，而给定小猪剔除了劣战略“按”后，大猪的战略“按”又占优于战略“等待”
表4 有补贴时的博弈空中客车开发开发波音不开发 -10,10 0, 120 不开发 100,0 0,0
这时只有一个纳什均衡，即波音公司不开发和空中客车公司开发的均衡（不开发,开发），这有利于空中客车。在这里，欧共体对空中客车的补贴就是使空中客车一定要开发（无论波音是否开发）的威胁变得可置信的一种“承诺行动”。
类似的例子还有：渤海中的鱼愈来愈少了，工业化中的大气及河流污染，森林植被的破坏等。解决公共资源过度利用的出路是政府制订相应的规制政策加强管理，如我国政府规定海洋捕鱼中，每年有一段时间的“休渔期”，此时禁止捕鱼，让小鱼苗安安静静地生长，大鱼好好地产卵，并对鱼网的网眼大小作出规定，禁用过小网眼的捕网打鱼，保护幼鱼的生存。又如在三峡库区，为了保护库区水体环境，关闭了前些年泛滥成灾的许多小造纸厂等。问题：1、为什么在城市中心道路上禁止汽车鸣喇叭？

第三节博弈论（GameTheory）

第三节博弈论(Game Theory)在国际关系的研究过程中，我们时常会运用到博弈论这样一个工具。

博弈论在英语中称之为“Game Theory”。

很多人会认为这是一种所谓的游戏理论，其实不然，我们不能把Games 与Fun 同论，而应该将博弈论称之为是一种“Strategic interaction”（策略性互动）。

“博弈”一词现如今在我们的生活中出现的已经很频繁，我们经常会听说各种类型的国家间博弈（如：中美博弈），“博弈论”已经深刻的影响了世界局势和地区局势的发展。

在iChange创设的危机联动体系中，博弈论将得到充分利用，代表也将有机会运用博弈论的知识来解决iChange 核心学术委员会设计的危机。

在这一节中，我将对博弈论进行一个初步的介绍与讨论，代表们可以从这一节中了解到博弈论的相关历史以及一些经典案例的剖析。

（请注意：博弈论的应用范围非常广泛，涵盖数学、经济学、生物学、计算机科学、国际关系、政治学及军事战略等多种学科，对博弈论案例的一些深入分析有时需要运用到高等数学知识，在本节中我们不会涉及较多的数学概念，仅会通过一些基本的数学分析和逻辑推理来方便理解将要讨论的经典博弈案例。

）3.1 从“叙利亚局势”到“零和博弈”在先前关于现实主义理论的讨论中，我们对国家间博弈已经有了初步的了解，那就是国家是有目的的行为体，他们总为了实现自己利益的最大化而选择对自己最有利的战略，其次，政治结果不仅仅只取决于一个国家的战略选择还取决于其他国家的战略选择，多种选择的互相作用，或者策略性互动会产生不同的结果。

因此，国家行为体在选择战略前会预判他国的战略。

在这样的条件下，让我们用一个简单的模型分析一下发生在2013年叙利亚局势1：叙利亚危机从2011年发展至今已经将进入第四个年头。

叙利亚危机从叙利亚政府军屠杀平民和儿童再到使用化学武器而骤然升级，以2013年8月底美国欲对叙利亚动武达到最为紧张的状态，同年9月中旬，叙利亚阿萨德政府以愿意向国际社会交出化学武器并同意立即加入《禁止化学武器公约》的态度而使得局势趋向缓和。

《产业经济学》第五章--(博弈1)讲解

在上述“囚徒困境”的例子中，每个囚徒都有两种可选择的策略：坦白或抵赖。显然不论同伙选择什么策略，每个囚徒的最优策略是 “坦白”。如果一个博弈中，某个参与人有占优策略，那么该参与人的其他可选择策略就被称为“劣策略”。
在一个博弈里，如果所有参与人都有占优策略存在，那么占优策略均衡是可以预测到的唯一的均衡，因为没有一个理性的参与人选择劣策略。所以在“囚徒困境”博弈里，“坦白、坦白”是占优策略均衡。
第五章博弈
第一节博弈论的基本概念与应用
一、博弈论的定义博弈论，英文为Game theory，是研究相互依赖、相互影响的决策主体的理性决策行为以及这些决策的均衡结果的理论。一些相互依赖、相互影响的决策行为及其结果的组合称为博弈。博弈论研究的是存在相互外部效应条件下的主体的决策问题。
在寡头垄断的市场上，只有少数几家厂商在相互竞争，寡头们面对的市场环境或者说竞争对手的行为将随着他们本身的决策行为而变动，即寡头们的决策是相互作用的，每个企业的得益和利润不仅取决于自身的决策，也取决于其他厂商的决策。寡头厂商之间可能有激烈的竞争，这些竞争涉及价格、产量、广告、投资等许多方面的决策，在分析寡头垄断市场中的企业决策行为时，就必须把各种决策者之间的策略相互作用纳入到经济模型中，这就是一种博弈分析。
1．从行动的先后次序来划分，博弈可以分为静态博弈和动态博弈。静态博弈指在博弈中，参与人同时选择行动或虽非同时但后行动者并不知道先行动者采取了什么具体行动；动态博弈指的是参与人的行动有先后顺序，且后行动者能够观察到先行动者所选择的行动的博弈。
2．从参与人对其他参与人的各种特征信息的获得差异来划分，博弈可分为完全信息博弈和不完全信息博弈。完全信息博弈指的是每一个参与人对所有其他参与人的特征，如策略集合及得益函数都有准确完备的知识；否则就是不完全信息博弈。

博弈论-game-theory-两人轮流进行游戏

g(a(k+1))=0 !
当k∞时 x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 …… g(x) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 …… 这有啥用
游戏的联合
定义：对于n个给定的公平组合博弈G1, G2, …, Gn，定义他们集的合联；合对为于G一=个G1局+G面2+x…i属+G于n.X对i，于设游F戏i(xGi)i表Байду номын сангаас示设xXi的i为后它继的局局面面集合对。于G那的么一G个的局局面面x集=合{x1X,x=2,X…1*,xXn2}*，…它*X的n（后其继中局*为面笛集卡合儿积）；
gn(x1,x2,…,xn) = g(x1)⊕g(x2)⊕…⊕g(xn)
= x1⊕x2⊕…⊕xn
经典Nim游戏
图的游戏
3
0
2 0
1
3 ⊕0 ⊕0=3
0 0
1 0
1
Anti-Nim
有n堆石子，每堆ai个，两个人轮流游戏，每次游戏者取走某一石碓中至少1枚，至多k枚的石子。谁取走最后一颗石子算谁输。
一方算输无论游戏如何进行，总可以在有限步之内结束。(the
Ending Condition)
N局面，P局面
N局面——先手必胜局面
winning for the Next player
P局面——后手必胜局面
winning for the Previous player
定义：
每一个最终局面都是P局面对于一个局面，若至少有一种操作使它变成一个P局面，
还扩展
游戏4：游戏有n堆石子，第i堆有ai枚，两人轮流进行游戏，每次游戏者可以从任意一堆取走任意多枚石子，也可以将任意的一堆石子任意的分成两堆。谁取走最后一颗石子为胜。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1.2.4石头、剪刀、布
A
石头剪刀
布
石头 0，0 1，-1 -1，1
B
剪刀 -1，1 0，0 1，- 1
布
1，-1 -1，1 0，0
§1.3按局中人的数量对博弈分类
1.3.1单人博弈退化为一般的最优化问题（1）单人迷宫
入口
A左B左
0
局
A左B右
M
A
B
中
A右B左
0
人
出口（奖金M）
A右B右
0
单人迷宫
田忌上中下上下中中上下中下上下上中下中上上中下 3，-3 1，-1 1，-1 1，-1 -1，1 1，-1 上下中 1，-1 3，-3 1，-1 1，-1 1，-1 -1，1 齐中上下 1，-1 -1，1 3，-3 1，-1 1，-1 1，-1 威王中下上 -1，1 1，-1 1，-1 3，-3 1，-1 1，-1 下上中 1，-1 1，-1 1，-1 -1，1 3，-3 1，-1 下中上 1，-1 1，-1 -1，1 1，-1 1，-1 3，-3
局中人的得益（payoffs）——支付博弈结果的量化局中人在博弈中得到的效用策略组合的函数
博弈的次序（orders）局中人决策是否同时
1.1.3博弈的表示方法 (1)正规型（策略型）——Payoff Matrix
A坦 B
白不坦白
坦
白 -8，-8
0，-10
不坦白 -10，0
-1，-1
例子三人决斗，开枪射杀对手，以保存自己。命中率和
每一轮的开枪次序如下。
命中率
次序
A
30%
1
B
70%
2
C
100%
3
A在第一轮的策略是什么？A最怕什么？首轮之后谁的存活几率最高？
1.1.2 博弈的基本要素——非正式的定义
博弈的参加者——局中人（players）独立决策、独立承担结果的个人或组织
策略（strategies）和行为集一局博弈中，供局中人选用的若干方案
（1）两党制与多党制两党政见会趋于中间立场，这是一个均衡。三个政党就不存在均衡。
选民的分布
选民的政治倾向
（2）三厂商竞争优势博弈
厂商3 使用新技术
厂商3 使用旧技术
厂商2 新技术旧技术
厂商1 新技术旧技术
厂商 1
新技术旧技术
2，2，2 5，0，5
新技术 5，5，0 10，1，1
厂
商2
0，5，5 1，1，10
解其他局中人的博弈支付。
§1.6按博弈的过程对博弈分类
1.6.1静态博弈和动态博弈
静态博弈所有局中人同时进行决策（选择策略）的博弈。
动态博弈局中人先后依次进行选择，并且后选择的局中人在选择之前可以看到此前其他局中人选择的博弈。
注意：在动态博弈中，缺失了对称性，策略区别于步骤。打击
无限策略博弈，结果为无限，只能用数集或函数表示。
n
结果数量 ji i1
其中i 1，2，，n；n是局中人的数量；ji是局中人i的策略数量。
§1.5按博弈中的得益（支付）对博弈分类
零和博弈、正和博弈、变和博弈
1.5.1 零和博弈：任意策略组合中，局中人的支付之和总为零，局中人总是对立，在重复博弈中没有合作的机会。
博弈论
Game Theory
焦未然
目录
基本概念
完全信息静态博弈
完全且完美信息动态博弈
不完全信息静态博弈
重复博弈
进化博弈合作博弈
完全但不完美信息动态博弈不完全信息动态博弈
CH1基本概念
§1.1博弈和博弈论
1.1.1博弈的基本描述——博弈即游戏游戏的基本特征：有规则、有结果、有策略、相互依赖性
1.6.3关于博弈进程的信息具有完美信息的局中人：对历史有完美的知识。反之，
就是具有不完美信息的局中人。若局中人全是完美信息局中人，则该动态博弈称为完美
信息动态博弈；否则就是不完美信息动态博弈。
CH2 完全信息静态博弈 §2.1 博弈的解法
2.1.1占优策略局中人的最优策略不依赖于其他局中人的选择，则称该
(2)扩展型——博弈树由棱和节点构成
B
A
root
outcome
§1.2一些典型博弈
1.2.1 Tucker的囚徒困境
B
A坦
白不坦白
坦
白 -8，-8
0，-10
不坦白 -10，0
-1，-1
1.2.2抛硬币
猜硬币者正
盖硬币者
面反面
正
面 -1，1
1，-1
反
面 1，-1
-1，1
1.2.3田忌赛马
先来后到博弈
B
进
不进
A
（0，10）
和平共处
（-2，3）（5，5）
1.6.2重复博弈同一个博弈反复进行的博弈过程称为重复博弈。构成重
复博弈的一次性博弈称为“原博弈”或“阶段博弈”。本教程所指的重复博弈是指原博弈为静态博弈的博弈过程。
有限次重复博弈：原博弈重复的次数是确定的。无限次重复博弈：没有事先确定的重复次数。大多数情况下，无法在事前、事中验证博弈的次数是否有限。局中人关心的不是原博弈的结果，而是整个博弈的总体结果。所以，重复博弈是一种特殊的动态博弈。
局中人有占优策略。如果某策略组合中的每一个策略都是局中人各自的占优策略，此策略组合称为占优均衡。
囚徒困境中的（坦白，坦白）就是占优均衡，坦白是每个囚徒的占优策略。但并不是每个博弈，每个局中人都有占优策略。
A坦 B
白不坦白
坦
白 -8，-8
1.5.2 正和博弈：任意策略组合中，局中人的支付之和总为非零常数，会产生合作的机会。
1.5.3 变和博弈：局中人的支付之和并非常数。支付之和有大小排序的问题。
1.5.4 关于支付的信息可以是完全的，也可以是不完全的具有完全信息的博弈——知道所有局中人的博弈支付。具有不完全信息的博弈——至少有部分局中人不完全了
（2）运输商与自然的博弈
自然好天气坏天气
运输商
（75%）（25%）
水
路 -7000
-16000
陆
路 -10000
-10000
从单人博弈的角度看，局中人拥有的信息越多，其所获得的支付越多。这一规律在多人博弈中是不成立的。
1.3.2多人博弈依存关系更复杂，存在“破坏者”——“损人不利己者”
旧技术 1，10，1 2，2，2
§1.4按照策略对博弈分类
1.4.1 根据策略多少，博弈可分为：有限策略博弈和无限策略博弈。有限策略博弈是指所有局中人的策略均为有限时的博弈。
1.4.2 局中人的策略数可能不一样。有时，在同一博弈中，某些局中人存在有限的策略，而
另一些局中人有无限策略。 1.4.3 有限策略博弈的结果为有限个，用策略式或扩展式表示。