博弈论算法讲义

博弈论讲义完整版

第一章导论
注意两点： 1、是两个或两个以上参与者之间的对策论当鲁滨逊遇到了“星期五”

石匠的决策与拳击手的决策的区别
第一章导论
2、理性人假设理性人是指一个很好定义的偏好，在面临定的约束条件下最大化自己的偏好。博弈论说起来有些绕嘴，但理解起来很好理解，那就是每个对弈者在决定采取哪种行动时，不但要根据自身的利益的利益和目的行事，而且要考虑到他的决策行为对其他人可能的影响，通过选择最佳行动计划，来寻求收益或效用的最大化。
不完全信息静态博弈-贝叶斯纳什均衡海萨尼（1967-1968）
你接受求爱博弈：品德优良者求爱求爱者求爱
100，100
不接受
-50，0 0，0
不求爱 0，0
100x+（-100）（1-x）=0 当x大于1/2时，接受求爱求爱博弈：品德恶劣者求爱求爱者接受求爱不求爱 0，0 你不接受
问题：什么叫“完全而不完美信息博弈”？
第二章完全信息静态博弈

一博弈的基本概念及战略表述二占优战略（上策）均衡

三重复剔除的占优均衡（严格下策反复消去法）
四划线法
五箭头法
六纳什均衡
完全信息静态博弈

完全信息：每个参与人对所有其他参与人的特征（包括战略空间、支付函数等）完全了解
同样的情形发生在：公共产品的供给美苏军备竞赛经济改革中小学生减负 ……
第一章导论-囚徒困境

囚徒困境的性质：
个人理性和集体理性的矛盾；个人的“最优策略”使整个“系统”处于不利的状态。

思考：为什么会造成囚徒困境是否由于“通讯”问题造成了囚徒困境？ “要害”是否在于“利己主义”即“个人理性”？

「算法笔记」博弈论入门

「算法笔记」博弈论⼊门⼀、公平组合游戏 ICG1. 公平组合游戏的定义若⼀个游戏满⾜：1. 游戏有两个⼈参与，⼆者轮流做出决策。

2. 在游戏进程的任意时刻，可以执⾏的合法⾏动与轮到哪名玩家⽆关。

3. 不能⾏动的玩家判负。

则称该游戏为⼀个公平组合游戏。

2. ⼀些说明我们把游戏过程中⾯临的状态称为局⾯，整局游戏第⼀个⾏动的为先⼿，第⼆个⾏动的为后⼿。

我们讨论的博弈问题⼀般只考虑理想情况，即两⼈均⽆失误，都采取最优策略⾏动时游戏的结果。

定义必胜态为先⼿必胜的状态，必败态为先⼿必败的状态。

注意，在⼀般确定操作状态的组合游戏中，只会存在这两种状态，如果先⼿和后⼿都⾜够聪明，不会出现介于必胜态和必败态之间的状态。

⼀个重要的性质：⼀个状态是必败态当且仅当它的所有后继都是必胜态。

⼀个状态是必胜态当且仅当它⾄少有⼀个后继是必败态。

特别地，没有后继状态的状态是必败态（因为⽆法操作则负）。

⼆、Nim 博弈$\text{Nim}$ 游戏是⼀个公平组合游戏。

⼤概是这样的：现在有 $n$ 堆⽯⼦，第 $i$ 堆有 $a_i$ 个。

两⼈轮流操作，每⼈每次可以从任选⼀堆中取⾛任意多个⽯⼦，但是不能不取。

取⾛最后⼀个⽯⼦的⼈获胜（即⽆法再取的⼈就输了）。

结论：$\text{Nim}$ 博弈先⼿必胜，当且仅当 $a_1\oplus a_2\oplus \cdots \oplus a_n\neq 0$。

证明：为了证明这个结论，我们需要证明：1. 所有⽯⼦都被取⾛是⼀个必败局⾯。

2. 对于任意⼀个局⾯，若 $a_1\oplus a_2\oplus \cdots \oplus a_n\neq 0$，⼀定能得到⼀个 $a_1\oplus a_2\oplus \cdots \oplusa_n=0$ 的局⾯。

3. 对于任意⼀个局⾯，若 $a_1\oplus a_2\oplus \cdots \oplus a_n=0$，⼀定不能得到⼀个 $a_1\oplus a_2\oplus \cdots \oplusa_n=0$ 的局⾯。

博弈论讲义3(1)

流浪汉
寻找工作的概率小于0.2
政府
概率为1：不救济
流浪汉
寻找工作
政府救济
五混合战略纳什均衡
用上述方法：求该猜谜游戏的混合战略纳什均衡
正面反面
1
正面 -1， -1 1，
-1
1
反面
1，
-1，
五混合战略纳什均衡

练习：模型化下述划拳博弈：两个老朋友在一起喝酒，每个人有四个纯战略：杠子、老虎、鸡和虫子，输赢规则是：杠子降鸡，鸡吃虫子，虫子降杠子，两人同时出令。如果一个打败另一个，赢的效用为1，输的效用为-1，否则效用为0，写出这个博弈的支付矩阵，这个博弈有纯战略均衡吗？计算其混合战略纳什均衡。
大猪
按
5，1
4，4
0，0
正面
正面
1 -1， -1 1，
反面
-1
等待 9，-1
1 -1，
反面
1，
五混合战略纳什均衡
如何寻找混合战略纳什均衡？

支付最大化法
支付等值法由于混合战略伴随的是支付的不确定性，因此参与人关心的是其期望效用。最优混合战略：是指使期望效用函数最大的混合战略（给定对方的混合战略）在两人博弈里，混合战略纳什均衡是两个参与人的最优混合战略的组合。
假定参与人i有K个纯战略：Si si1 , sik , 称为i的一个混合战略，这里 ik （sik）是i选择sik的概率，对于所有的 k 1，，K， 0 ik 1， 1 ik 1。
k
五混合战略纳什均衡

纯战略可以理解为混合战略的特例，即在诸多战略中，选该纯战略si的概率为1，选其他纯战略的概率为0。小猪按等待

博弈论算法一、博弈的战略式表述及纳什均衡的定义在博弈论里，一个博弈可以用两种不同的方式来表述：一种是战略式表述（strategic form representation ），另一种是扩展式表述（或译为“展开式表述”）（extensive form representation ）。

从分析的角度看，战略式表述更适合于静态博弈，而扩展式表述更适合于讨论动态博弈。

1.1博弈的战略式表述战略式表述又称为标准式表述（normal form representation ）。

在这种表述中，所参与人同时选择各自的战略，所有参与人选择的战略一起决定每个参与人的支付。

战略式表述给出：1.博弈的参与人集合：(),1,2,,i n ∈ΓΓ=。

2.每个参与人的战略空间：,1,2,,i S i n =。

3.每个参与人的支付函数：12(,,,),1,2,,i n u s s s i n =。

我们用()11,,;,,n n G S S u u =代表战略式表述博弈。

例如在两个寡头产量博弈里，企业是参与人，产量是战略空间，利润是支付;战略式表述博弈为：{}121122120, 0; (,), (,)G q q q q q q ππ=≥≥ (1.1)这里i q 、i π别表示第i 个企业的产量和利润。

1.2纳什均衡的定义有n 个参与人的战略式表述博弈()11,,;,,n n G S S u u =，战略组合{}1,,,,i n s s s s ****=是一个纳什均衡。

如果对于每一个i 、i s *是给定其他参与人选择{}111,,,,,i i i n s s s s s *****--+=的情况下第个参与人的最优战略，即(,)(,),,i i i i i i i i u s s u s s s S i***--≥∀∈∀ (1.2)或者用另一种表述方式，i s *是下述最大化问题的解:111argmax (,...,,,,...,),1,2,..., ;i i i i i n i i s u s s s s s i n s S *****-+∈=∈(1.3)我们用这个定义来检查一个特定的战略组合是否是一个纳什均衡。

微分博弈理论ppt课件

• 这时，个体的理性利益选择是与整体的理性利益选择不一致的。
鞍点（Saddle point）
• 在微分方程中，沿着某一方向是稳定的，另一条方向是不稳定的奇点，叫做鞍点。
• 在泛函中，既不是极大值点也不是极小值点的临界点，叫做鞍点。
• 在矩阵中，一个数在所在行中是最大值，在所在列中是最小值，则被称为鞍点。
• 方程（3）将这一微分博弈描述成最小最大值优化问题。
• L被设为在一个给定的仿真周期中，汽车侧翻角绝对值的最大值，如方程（4）所示。
纳什均衡解
• 分析可得存在纳什均衡解(u*,w*)，使得鞍点不等式（5）：
成立 • 纳什均衡解的含义是在最坏扰动W*（试图使Ｌ最大）
工况下，最好的控制器输入是Ｕ*（试图使L最小）；反之亦然。
• 在数学中，把函数上具有上述“极大一极小”性质的点称为鞍点(Sadd了lePoint)。把同鞍点有关的数学问题称为鞍点问题。
形象地说，鞍点就是处于 “马鞍中央的点”，从纵向看取极小值，从横向看取极大值。
鞍点的含义
• 下面用二元函数z=f(x，y)来说明鞍点的含义：对于二元函数z=f(x，y)，(x*，y*)为其上一点。若在邻域|x-x*|<￡，|y-y*|<￡内
纳什均衡解
• 其均衡解是通过进化遗传算法得到的，对进化遗传算法的适应性估计是在汽车仿真软件Carsim上进行的。
进化遗传算法的适应性估计
进化遗传算法流程图
数值仿真及结论
• 通过分析伯德图和在 Carsim中的仿真结果，证明它设计的控制器保证了在最坏的转向角输入工况下最坏防侧翻性能，同时分别通过抵抗路面扰动以及侧向加速度，提供了良好的乘坐质量以及防侧翻性能。

算法博弈论

算法博弈论算法博弈论（algorithmic game theory）是2018年公布的计算机科学技术名词。

是计算机科学与博弈论的交叉研究领域。

从博弈的角度、以经济学和计算理论的方法分别研究计算机科学和经济学中的计算模型。

长期以来来，经济学研究人员专注各种经济活动和各种相应的经济关系及其运行，以及身为一名理性人在经济活动中的行为；而计算机科学研究人员则专注于研究信息与计算以及计算机系统中如何实现与应用，二者互不干涉。

这一情况在上个世纪90年代得到了改变，互联网的兴起，让原来只关注自身领域的计算机研究人员和经济学研究人员走到了一起：对于计算机科学研究人员，他们开始考虑互联网上的非合作博弈（non-cooperative）特性以及相应的激励(incentive)问题；同样的，经济学研究人员也开始涉足新兴的互联网，研究其跟经济相关的问题。

就这样计算机科学（computer science）与博弈论（game theory）走到了一起，形成了一门新的学科：算法博弈论（algorithmic game theory).和传统的博弈论和计算机科学相比，算法博弈论主要关注点在互联网网络，非传统拍卖等，主要不同体现在这些方面：应用领域：算法博弈论主要研究包括Internet网络和非传统拍卖，比如社交网络里的个体行为，baidu,google等用拍卖的方式出售它的关键字广告位，或者4G频段的拍卖。

工程量化方法：从具体优化问题的角度对应用建模，寻求最优解、判断不可解问题以及研究可解优化的上下限问题。

比如，在对问题用博弈论的框架进行建模过程中，可能会得到很多个稳定的状态（纳什均衡）。

那么在在这些稳定状态中，我们会关注系统最好情况的系统状况，最坏情况下系统的状况，以及统计意义上平均的系统状况。

以经典的囚徒困境为例，很显然在均衡状态下总共的收益是-4，而当两人都选择沉默时，每个人的收益-2。

很显然在均衡状态下并不最优的（inefficient），那我们该如何去量化这种inefficiency呢，这是算法博弈化研究内容之一。

博弈论及随机算法

2.2最小化最大原则最小最大原则（minimax principle）是证明随机算法运行时间下界的一个通用技巧，只能用于对所有输入和随机选择，都可以在有限时间内中止的算法最小最大原则使用博弈论中的概念，我们首先对博弈论进行介绍。

博弈论博弈论（game theory）是研究多个理性个体间博弈过程和结果的理论，一个简单的博弈通常可以由一个收益/支付矩阵（payoff matrix）!表示，考虑两人间有先后次序的石头剪子布博弈:支付矩阵上的元!!"∈!表示行决策者Roberta选择策略#，列决策者Charles 选择策略$时，Charles付给Roberta 的钱数/收益/数目…剪刀布石头剪刀01-1布-101石头1-1RobertaCharlesØ这是一个双人零和博弈（two-person zero-sum game），即两个人的净收益总和为0Ø进一步假设这是一个零信息博弈，即没有博弈者知道对手的策略。

自然地，行博弈者想最大化支付值，列博弈者想最小化博弈值Ø如果R 选择策略i，他得到的支付值是min"!!"，此时R 的最优策略是(#=max $min"!!"，这是R 支付给C 值的下界Ø如果C选择策略j，他得到的支付值是m,-!!!"，此时C 的最优策略是(%=m#.m,-!!"，这是C 支付给R 值的上界剪刀布石头剪刀01-1布-101石头1-10RobertaCharles一般有，max*min+),+≤m<=-m>?,),+，当@.=@/=V时，称它为博弈的一个解值，对应的策略称为博弈的解、鞍点、最优策略。

对于有界的博弈，令B,D分别表示R 和C 的最优策略，有@=)01。

注意，博弈可能不只有一个最优策略，也就是说解不只一个。

混合策略前面的讨论是针对于单一策略，当可能的策略为一个概率分布时，我们称其为混合策略，此时行决策者在分布p =(H %,…,H 2)上进行决策，H ,表示选择策略<的概率，列决策者在分布K =(K %,…,K 3)上进行决策，K +表示选择策略L 的概率。

博弈论讲义2

三重复剔除的占优均衡
重复剔除严格劣策略：
思路：首先找到某个参与人的劣策略（假定存在），把这个劣策略剔除掉，重新构造一个不包含已剔除策略的新的博弈，然后再剔除这个新的博弈中的某个参与人的劣策略，一直重复这个过程，直到只剩下唯一的策略组合为止。这个唯一剩下的策略组合就是这个博弈的均衡解，称为“重复剔除的占优均衡”。
独木桥
进
A
退
B
进退 -3，-3 2，0
0，2 0，0
纳什均衡：A进，B退；A退，B进
斗鸡博弈
村子里有两户富户，有两种可能：一家修，另一家就不修；一家不修，另一家就得修。
冷战期间美苏抢占地盘：一方抢占一块地盘，另一方就占另一块。
夫妻吵架，一方厉害，另一方就出去躲躲。
注意：在混合策略纳什均衡条件下，也可能两败俱伤。
注意：如果所有人都有（严格）占优策略存在，
那么占优策略均衡就是可以预测的唯一均衡。占优策略只要求每个参与人是理性的，而不要求每个参与人知道其他参与人是理性的（也就是说，不要求理性是共同知识）。为什么？
二占优策略均衡
案例-囚徒困境
囚徒A
囚徒 B
坦白
坦白 -8，-8
抵赖
0，-10 -8大于-10
相安无事；第二天，相安无事……；直到第100天，突然，每个妻子都把丈夫杀了。为什么会这样？
这是一个推理和行动的过程。如果她的丈夫不忠的话，她就杀死他；如果没有证据证明她的丈夫不忠的话，她便相信他，不杀死他。

如果村里只有一个男人是不忠的话，在老太太作了宣布之
后的第一天，这个男人的妻子在老太太宣布之后马上就能知道
两只猪一起去按，然后一起回槽边进食，由于大猪吃得快可吃下8个单位的食物，小猪只能吃到2个单位食物。

博弈论启发式算法和纳什均衡-概述说明以及解释

博弈论启发式算法和纳什均衡-概述说明以及解释1.引言1.1 概述博弈论是一门研究决策和策略的数学理论，它以个体或组织在面对冲突和竞争时的互动行为为研究对象。

在现实生活中，博弈论可以应用于各种领域，如经济学、政治学、社会科学等。

启发式算法是一种基于经验和规则的问题解决方法，它通过不断试错和搜索最优解的过程，逐步逼近问题的解。

启发式算法可应用于各种优化问题、组合问题以及决策问题等。

本文旨在探讨博弈论、启发式算法和纳什均衡之间的关系。

博弈论的基本概念将会被介绍，包括博弈的类型、参与者的策略选择、收益与支付等因素。

启发式算法的原理和应用将会被解释，以展示它们在解决博弈论问题中的潜力。

本文的结论将会重点探讨纳什均衡的概念和特点。

纳什均衡是指在博弈中，每个参与者根据其他参与者的策略选择下的最佳响应策略。

此外，还将探讨博弈论、启发式算法和纳什均衡之间的联系，以揭示它们在实际问题中的应用潜力和相互作用关系。

通过本文的阅读，读者将对博弈论、启发式算法和纳什均衡有更深入的理解，并能够将它们应用于实际问题的解决中。

本文的目的是为读者提供一种全面的视角，以便能够更好地理解和应用这些概念和方法。

1.2 文章结构文章结构：本文主要分为引言、正文和结论三个部分。

在引言部分，将对博弈论、启发式算法和纳什均衡进行简要概述，并介绍文章的目的。

正文部分将着重阐述博弈论的基本概念以及启发式算法的原理和应用。

最后，在结论部分将探讨纳什均衡的概念和特点，并深入讨论博弈论、启发式算法和纳什均衡之间的关系。

本文旨在通过对博弈论、启发式算法和纳什均衡的研究，探索博弈论在实际问题中的应用，并探讨启发式算法与纳什均衡的关联性，从而提供对博弈论和启发式算法的理解和应用以及对纳什均衡的深入认识。

1.3 目的本部分将重点介绍本文的目的。

通过阅读本文，读者将能够深入了解博弈论、启发式算法和纳什均衡之间的关系。

我们将首先简要介绍博弈论的基本概念，包括博弈的定义和元素，以及博弈论在经济学、政治学和计算机科学等领域的应用。

《博弈论》精品讲义

指定n个局中人，以及他们各自的纯策略空间
Si,i1 ,2, ,n
和这些局中人各自的支付（盈利）函数
u i( S 1 ,S 2 , ,S n )i, 1 ,2 , ,n
我们将该博弈表示为：
G { S 1 ,S 2 , ,S n ;u 1 ,u 2 , ,u n }
博弈论20092009
正大光明公正無私
7
➢长街上的超市（海滩占位模型）
＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊
0
1/4 A’ 1/2 O’
3/4
1
✓资源浪费还是理性的必然？
✓其它相似情形：旅行社的热门路线；黄金时间的电视节目；总统竞选。
博弈论20092009
正大光明公正無私
8
➢狩猎与投资狩猎：
两个猎人围住一头鹿，各卡住两个关口中的一个，齐心协力即可成功获得并平分猎物。此时有一群兔子跑过，任何一人去抓兔子必可成功，但鹿会跑掉。
博弈论20092009
正大光明公正無私
20
策略型表述：（两人有限博弈；Fra bibliotek阵形式）高需求情况
B
A
低需求情况？
博弈论20092009
正大光明公正無私
21
➢房地产博弈分析
假设：同时决策；市场需求双方已知
若市场需求大，双方开发，各得0.4万元。若市场需求小，依赖于对方行动。若市场不确定，依赖对市场的判断及对方行动。
博弈论20092009
正大光明公正無私
23
4.博弈练习
➢游戏一：心灵感应两个人一组，独立写出1至10之间的任
意5个数。如果不重复则得奖；否则受罚。获胜的秘诀是什么？
博弈论20092009

博弈论算法讲义

博弈论讲义完整版

「算法笔记」博弈论入门

博弈论讲义3(1)