博弈论算法讲义

合集下载

博弈论讲义完整版

博弈论讲义完整版


第一章 导论
注意两点: 1、是两个或两个以上参与者之间的对策论 当鲁滨逊遇到了“星期五”

石匠的决策与拳击手的决策的区别
第一章 导论
2、理性人假设 理性人是指一个很好定义的偏好,在面临定的约束条 件下最大化自己的偏好。 博弈论说起来有些绕嘴,但理解起来很好理解, 那就是每个对弈者在决定采取哪种行动时,不但要根 据自身的利益的利益和目的行事,而且要考虑到他的 决策行为对其他人可能的影响,通过选择最佳行动计 划,来寻求收益或效用的最大化。
不完全信息静态博弈-贝叶斯纳什均衡 海萨尼(1967-1968)
你 接受 求爱博弈: 品德优良者求爱 求爱者 求爱
100,100
不接受
-50,0 0,0
不求爱 0,0
100x+(-100)(1-x)=0 当x大于1/2时,接受求爱 求爱博弈: 品德恶劣者求爱 求爱者 接受 求爱 不求爱 0,0 你 不接受
问题:什么叫“完全而不完美信息博弈”?
第二章 完全信息静态博弈

一 博弈的基本概念及战略表述 二 占优战略(上策)均衡


三 重复剔除的占优均衡(严格下策反复消去法)
四 划线法
五 箭头法
六 纳什均衡
完全信息静态博弈

完全信息:每个参与人对所有其他参与人的特 征(包括战略空间、支付函数等)完全了解
同样的情形发生在: 公共产品的供给 美苏军备竞赛 经济改革 中小学生减负 ……
第一章 导论-囚徒困境

囚徒困境的性质:
个人理性和集体理性的矛盾; 个人的“最优策略”使整个“系统”处于不利 的状态。

思考:为什么会造成囚徒困境 是否由于“通讯”问题造成了囚徒困境? “要害”是否在于“利己主义”即“个人理 性”?

「算法笔记」博弈论入门

「算法笔记」博弈论入门

「算法笔记」博弈论⼊门⼀、公平组合游戏 ICG1. 公平组合游戏的定义若⼀个游戏满⾜:1. 游戏有两个⼈参与,⼆者轮流做出决策。

2. 在游戏进程的任意时刻,可以执⾏的合法⾏动与轮到哪名玩家⽆关。

3. 不能⾏动的玩家判负。

则称该游戏为⼀个公平组合游戏。

2. ⼀些说明我们把游戏过程中⾯临的状态称为局⾯,整局游戏第⼀个⾏动的为先⼿,第⼆个⾏动的为后⼿。

我们讨论的博弈问题⼀般只考虑理想情况,即两⼈均⽆失误,都采取最优策略⾏动时游戏的结果。

定义必胜态为先⼿必胜的状态,必败态为先⼿必败的状态。

注意,在⼀般确定操作状态的组合游戏中,只会存在这两种状态,如果先⼿和后⼿都⾜够聪明,不会出现介于必胜态和必败态之间的状态。

⼀个重要的性质:⼀个状态是必败态当且仅当它的所有后继都是必胜态。

⼀个状态是必胜态当且仅当它⾄少有⼀个后继是必败态。

特别地,没有后继状态的状态是必败态(因为⽆法操作则负)。

⼆、Nim 博弈\(\text{Nim}\) 游戏是⼀个公平组合游戏。

⼤概是这样的:现在有 \(n\) 堆⽯⼦,第 \(i\) 堆有 \(a_i\) 个。

两⼈轮流操作,每⼈每次可以从任选⼀堆中取⾛任意多个⽯⼦,但是不能不取。

取⾛最后⼀个⽯⼦的⼈获胜(即⽆法再取的⼈就输了)。

结论:\(\text{Nim}\) 博弈先⼿必胜,当且仅当 \(a_1\oplus a_2\oplus \cdots \oplus a_n\neq 0\)。

证明:为了证明这个结论,我们需要证明:1. 所有⽯⼦都被取⾛是⼀个必败局⾯。

2. 对于任意⼀个局⾯,若 \(a_1\oplus a_2\oplus \cdots \oplus a_n\neq 0\),⼀定能得到⼀个 \(a_1\oplus a_2\oplus \cdots \oplusa_n=0\) 的局⾯。

3. 对于任意⼀个局⾯,若 \(a_1\oplus a_2\oplus \cdots \oplus a_n=0\),⼀定不能得到⼀个 \(a_1\oplus a_2\oplus \cdots \oplusa_n=0\) 的局⾯。

博弈论讲义3(1)

博弈论讲义3(1)



流浪汉
寻找工作的概率小于0.2
政府
概率为1:不救济
流浪汉
寻找工作
政府 救济
五 混合战略纳什均衡
用上述方法:求该猜谜游 戏的混合战略纳什均衡
正面 反面
1
正面 -1, -1 1,
-1
1
反面
1,
-1,
五 混合战略纳什均衡

练习:模型化下述划拳博弈: 两个老朋友在一起喝酒,每个人有四个纯战略: 杠子、老虎、鸡和虫子,输赢规则是:杠子降 鸡,鸡吃虫子,虫子降杠子,两人同时出令。 如果一个打败另一个,赢的效用为1,输的效 用为-1,否则效用为0,写出这个博弈的支付 矩阵,这个博弈有纯战略均衡吗?计算其混合 战略纳什均衡。
大猪

5,1
4,4
0,0
正面
正面
1 -1, -1 1,
反面
-1
等待 9,-1
1 -1,
反面
1,
五 混合战略纳什均衡
如何寻找混合战略纳什均衡?

支付最大化法
支付等值法 由于混合战略伴随的是支付的不确定性,因此参与 人关心的是其期望效用。 最优混合战略:是指使期望效用函数最大的混合战 略(给定对方的混合战略) 在两人博弈里,混合战略纳什均衡是两个参与人的 最优混合战略的组合。
假定参与人i有K个纯战略:Si si1 , sik , 称为i的一个混合战略,这里 ik (sik) 是i选择sik的概率,对于所有的 k 1, ,K, 0 ik 1, 1 ik 1。
k
五 混合战略纳什均衡

纯战略可以理解为混合战略的特例,即在诸多 战略中,选该纯战略si的概率为1,选其他纯战 略的概率为0。 小猪 按 等待

博弈论算法讲义

博弈论算法讲义

博弈论算法一、博弈的战略式表述及纳什均衡的定义在博弈论里,一个博弈可以用两种不同的方式来表述:一种是战略式表述(strategic form representation ),另一种是扩展式表述(或译为“展开式表述”)(extensive form representation )。

从分析的角度看,战略式表述更适合于静态博弈,而扩展式表述更适合于讨论动态博弈。

1.1博弈的战略式表述战略式表述又称为标准式表述(normal form representation )。

在这种表述中,所参与人同时选择各自的战略,所有参与人选择的战略一起决定每个参与人的支付。

战略式表述给出:1.博弈的参与人集合:(),1,2,,i n ∈ΓΓ=。

2.每个参与人的战略空间:,1,2,,i S i n =。

3.每个参与人的支付函数:12(,,,),1,2,,i n u s s s i n =。

我们用()11,,;,,n n G S S u u =代表战略式表述博弈。

例如在两个寡头产量博弈里,企业是参与人,产量是战略空间,利润是支付;战略式表述博弈为:{}121122120, 0; (,), (,)G q q q q q q ππ=≥≥ (1.1)这里i q 、i π别表示第i 个企业的产量和利润。

1.2纳什均衡的定义有n 个参与人的战略式表述博弈()11,,;,,n n G S S u u =,战略组合{}1,,,,i n s s s s ****=是一个纳什均衡。

如果对于每一个i 、i s *是给定其他参与人选择{}111,,,,,i i i n s s s s s *****--+=的情况下第个参与人的最优战略,即(,)(,),,i i i i i i i i u s s u s s s S i***--≥∀∈∀ (1.2)或者用另一种表述方式,i s *是下述最大化问题的解:111argmax (,...,,,,...,),1,2,..., ;i i i i i n i i s u s s s s s i n s S *****-+∈=∈(1.3)我们用这个定义来检查一个特定的战略组合是否是一个纳什均衡。

微分博弈理论ppt课件

微分博弈理论ppt课件
• 这时,个体的理性利 益选择是与整体的理 性利益选择不一致的。
鞍点(Saddle point)
• 在微分方程中,沿着某一 方向是稳定的,另一条方 向是不稳定的奇点,叫做 鞍点。
• 在泛函中,既不是极大值 点也不是极小值点的临界 点,叫做鞍点。
• 在矩阵中,一个数在所在 行中是最大值,在所在列 中是最小值,则被称为鞍 点。
• 方程(3)将这一微分博弈描述成最小最大值优化问题。
• L被设为在一个给定的仿真周期中,汽车侧翻角绝对值的 最大值,如方程(4)所示。
纳什均衡解
• 分析可得存在纳什均衡解(u*,w*),使得鞍点不等式 (5):
成立 • 纳什均衡解的含义是在最坏扰动W*(试图使L最大)
工况下,最好的控制器输入是U*(试图使L最小);反 之亦然。
• 在数学中,把函数上具有上 述“极大一极小”性质的点 称为鞍点(Sadd了lePoint)。 把同鞍点有关的数学问题称 为鞍点问题。
形象地说,鞍点就是处于 “马鞍中央的点”,从纵向 看取极小值,从横向看取极 大值。
鞍点的含义
• 下面用二元函数z=f(x,y)来说明鞍点的含义: 对于二元函数z=f(x,y),(x*,y*)为其上一点。若 在邻域|x-x*|<£,|y-y*|<£内
纳什均衡解
• 其均衡解是通过进化遗传算 法得到的,对进化遗传算法 的适应性估计是在汽车仿真 软件Carsim上进行的。
进化遗传算法的适应性估计
进化遗传算法流程图
数值仿真及结论
• 通过分析伯德图和在 Carsim中的仿真结 果,证明它设计的控 制器保证了在最坏的 转向角输入工况下最 坏防侧翻性能,同时 分别通过抵抗路面扰 动以及侧向加速度, 提供了良好的乘坐质 量以及防侧翻性能。

算法博弈论

算法博弈论

算法博弈论算法博弈论(algorithmic game theory)是2018年公布的计算机科学技术名词。

是计算机科学与博弈论的交叉研究领域。

从博弈的角度、以经济学和计算理论的方法分别研究计算机科学和经济学中的计算模型。

长期以来来,经济学研究人员专注各种经济活动和各种相应的经济关系及其运行,以及身为一名理性人在经济活动中的行为;而计算机科学研究人员则专注于研究信息与计算以及计算机系统中如何实现与应用,二者互不干涉。

这一情况在上个世纪90年代得到了改变,互联网的兴起,让原来只关注自身领域的计算机研究人员和经济学研究人员走到了一起:对于计算机科学研究人员,他们开始考虑互联网上的非合作博弈(non-cooperative)特性以及相应的激励(incentive)问题;同样的,经济学研究人员也开始涉足新兴的互联网,研究其跟经济相关的问题。

就这样计算机科学(computer science)与博弈论(game theory)走到了一起,形成了一门新的学科:算法博弈论(algorithmic game theory).和传统的博弈论和计算机科学相比,算法博弈论主要关注点在互联网网络,非传统拍卖等,主要不同体现在这些方面:应用领域:算法博弈论主要研究包括Internet网络和非传统拍卖,比如社交网络里的个体行为,baidu,google等用拍卖的方式出售它的关键字广告位,或者4G频段的拍卖。

工程量化方法:从具体优化问题的角度对应用建模,寻求最优解、判断不可解问题以及研究可解优化的上下限问题。

比如,在对问题用博弈论的框架进行建模过程中,可能会得到很多个稳定的状态(纳什均衡)。

那么在在这些稳定状态中,我们会关注系统最好情况的系统状况,最坏情况下系统的状况,以及统计意义上平均的系统状况。

以经典的囚徒困境为例,很显然在均衡状态下总共的收益是-4,而当两人都选择沉默时,每个人的收益-2。

很显然在均衡状态下并不最优的(inefficient),那我们该如何去量化这种inefficiency呢,这是算法博弈化研究内容之一。

博弈论及随机算法

博弈论及随机算法

2.2最小化最大原则最小最大原则(minimax principle)是证明随机算法运行时间下界的一个通用技巧,只能用于对所有输入和随机选择,都可以在有限时间内中止的算法最小最大原则使用博弈论中的概念,我们首先对博弈论进行介绍。

博弈论博弈论(game theory)是研究多个理性个体间博弈过程和结果的理论,一个简单的博弈通常可以由一个收益/支付矩阵(payoff matrix)!表示,考虑两人间有先后次序的石头剪子布博弈:支付矩阵上的元!!"∈!表示行决策者Roberta选择策略#,列决策者Charles 选择策略$时,Charles付给Roberta 的钱数/收益/数目…剪刀布石头剪刀01-1布-101石头1-1RobertaCharlesØ这是一个双人零和博弈(two-person zero-sum game),即两个人的净收益总和为0Ø进一步假设这是一个零信息博弈,即没有博弈者知道对手的策略。

自然地,行博弈者想最大化支付值,列博弈者想最小化博弈值Ø如果R 选择策略i,他得到的支付值是min"!!",此时R 的最优策略是(#=max $min"!!",这是R 支付给C 值的下界Ø如果C选择策略j,他得到的支付值是m,-!!!",此时C 的最优策略是(%=m#.m,-!!",这是C 支付给R 值的上界剪刀布石头剪刀01-1布-101石头1-10RobertaCharles一般有,max*min+),+≤m<=-m>?,),+,当@.=@/=V时,称它为博弈的一个解值,对应的策略称为博弈的解、鞍点、最优策略。

对于有界的博弈,令B,D分别表示R 和C 的最优策略,有@=)01。

注意,博弈可能不只有一个最优策略,也就是说解不只一个。

混合策略前面的讨论是针对于单一策略,当可能的策略为一个概率分布时,我们称其为混合策略,此时行决策者在分布p =(H %,…,H 2)上进行决策,H ,表示选择策略<的概率,列决策者在分布K =(K %,…,K 3)上进行决策,K +表示选择策略L 的概率。

博弈论讲义2

博弈论讲义2

三 重复剔除的占优均衡
重复剔除严格劣策略:
思路:首先找到某个参与人的劣策略(假定存 在),把这个劣策略剔除掉,重新构造一个不包 含已剔除策略的新的博弈,然后再剔除这个新的 博弈中的某个参与人的劣策略,一直重复这个过 程,直到只剩下唯一的策略组合为止。 这个唯一剩下的策略组合就是这个博弈的均衡 解,称为“重复剔除的占优均衡”。
独木桥

A
退
B
进退 -3,-3 2,0
0,2 0,0
纳什均衡:A进,B退;A退,B进
斗鸡博弈
村子里有两户富户,有两种可能:一家修,另 一家就不修;一家不修,另一家就得修。
冷战期间美苏抢占地盘:一方抢占一块地盘, 另一方就占另一块。
夫妻吵架,一方厉害,另一方就出去躲躲。
注意:在混合策略纳什均衡条件下,也可能两 败俱伤。
注意: 如果所有人都有(严格)占优策略存在,
那么占优策略均衡就是可以预测的唯一 均衡。 占优策略只要求每个参与人是理性的, 而不要求每个参与人知道其他参与人是 理性的(也就是说,不要求理性是共同 知识)。为什么?
二 占优策略均衡
案例-囚徒困境
囚徒A
囚徒 B
坦白
坦白 -8,-8
抵赖
0,-10 -8大于-10
相安无事;第二天,相安无事……;直到第100天 ,突然,每个妻子都把丈夫杀了。为什么会这样?
这是一个推理和行动的过程。如果她的丈夫不忠的话,她就杀 死他;如果没有证据证明她的丈夫不忠的话,她便相信他,不 杀死他。

如果村里只有一个男人是不忠的话,在老太太作了宣布之
后的第一天,这个男人的妻子在老太太宣布之后马上就能知道
两只猪一起去按,然后一起回槽边进食, 由于大猪吃得快可吃下8个单位的食物, 小猪只能吃到2个单位食物。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关文档
最新文档