9博弈论第四讲-2 BNE 复旦大学 王永钦

合集下载

复旦大学经济博弈论课件--经济博弈论242页PPT

复旦大学经济博弈论课件--经济博弈论242页PPT

30.11.2019
课件
3
2.1.1 上策均衡
上策:不管其它博弈方选择什么策略,一博弈方 的某个策略给他带来的得益始终高于其它的策 略,至少不低于其他策略的策略
囚徒的困境中的“坦白”;双寡头削价中“低 价”。
上策均衡:一个博弈的某个策略组合中的所有策 略都是各个博弈方各自的上策,必然是该博弈 比较稳定的结果
课件
17
竞争:个体利益最大化
q1R 1(q2,q3)4 81 2q21 2q3
11 q2R 2(q 1,q3)4 82q 12q3 q 3R 3(q 1,q2)4 81 2q 11 2q2
q1 *q2 *q3 *24 u1*u2 *u3 *576
Q*72
u*1728
21
二、混合策略、混合策略博弈 和混合策略纳什均衡
混合策略:在博弈G {S1, Sn;u1, un中},博弈方 i的策略
空间为 Si {si1, sik},则博弈方 i以概率分布 pi (pi1, pik)
随机在其 k个可选策略中选择的“策略”,称为一个“混合策
略”,0其p中ij 1 j1, 对,k
u 1 u 1 ( P 1 ,P 2 ) P 1 q 1 c 1 q 1 ( P 1 c 1 ) q 1 (P 1 c 1 )a 1 ( b 1 P 1 d 1 P 2 )
u 2 u 2 ( P 1 ,P 2 ) P 2 q 2 c 2 q 2 ( P 2 c 2 ) q 2 (P 2 c 2 )a 2 ( b 2 P 2 d 2 P 1 )
上策均衡不是普遍存在的
30.11.2019
课件
4
2.1.2 严格下策反复消去法
严格下策:不管其它博弈方的策略如何变化, 给一个博弈方带来的收益总是比另一种策略 给他带来的收益小的策略

博弈论第四讲

博弈论第四讲

n人静态贝叶斯博弈的战略式表述包括:参与人的类型空间Θ1, …, Θn,条件概率p1,…, pn,类型依存战略空间A1(θ1),…, An(θn)和类型依 存支付函数u1(a1,…,an; θ1),…,un(a1,…,an; θn)。参与人i知道自己的
类型θi∈Θi,条件概率pi=pi(θ-i︱θi)描述给定自己属于θi的情况下,

海萨尼转换
市场进入博弈:不完全信息
高成本情况
默许
斗争 进入 不进入

在位者
低成本情况
默许 斗争
进入者
40, 50 0, 300
-10, 0 0, 300
30,80 0, 400
-10, 100 0, 400
1967年以前,博弈论专家认为这样的不完全信息是没法分析的, 因为当一个参与人并不知道他在与谁博弈时,博弈的规则是没有 定义的。

海萨尼通过引入一个虚拟的参与人“自然”,将不完全信息博 弈转换为完全但不完美信息博弈,从而可以用完全信息博弈论进 行处理,这就是著名的“海萨尼转换”(Harsainyi Transformation)。
海萨尼转换



私人信息(Private Information):共同知识之外 的信息;只有参与人i知道,其他参与人不知道 的信息。 例如,C2=C2l?还是C2=C2h?厂商2自己知道, 厂商1不知道,C2是厂商2的私人信息。 类型(type):对参与人私人信息的一个完备描 述 不完全信息意味着,至少有一个参与人有多个 类型。
诸葛亮:处于劣势,但知道博弈的结构,比对方掌握更多的信息。
计策:使用各种手段迷惑司马懿,为的是不让对方知道其战略的结果 (支付)。迫使其认为,撤退比进攻好,降低其进攻的预期收益。 如用概率论的术语来说,诸葛亮的做法是加大司马懿对进攻失败 的主 观概率,使司马懿认为进攻的期望收益小于撤退的期望收益。

2博弈论第二讲 Mixed Strategies 复旦大学 王永钦.

2博弈论第二讲 Mixed Strategies 复旦大学 王永钦.

For q>0.5, Tail (r=0)
For q=0.5, indifferent (0r1)
1/2
1q
Fall, 2007, Fudan
6
Solving matching pennies
Head Player 1
Tail
Expected payoffs
Player 2
Head
Tail
-1 , 1
1 , -1
1 , -1 -1 , 1
q 2r-1
1-q 1-2r
r 1-r
Expected payoffs
1-2q
2q-1
Player 2’s expected payoffs
If Player 2 chooses Head, r-(1-r)=2r-1 If Player 2 chooses Tail, -r+(1-r)=1-2r
v1((0.4, 0.6), (0.3, 0.7))=0.40.4+0.6(-0.4)=-0.08
Player 2:
EU2(H, (0.4, 0.6)) = 0.4×1+0.6×(-1) = -0.2 EU2(T, (0.4, 0.6)) = 0.4×(-1)+0.6×1 = 0.2 v2((0.4, 0.6), (0.3, 0.7))=0.3×(-0.2)+0.7×0.2=0.08
Player 2 chooses Head and Tail with probabilities q and 1-q, respectively.
Mixed Strategy:
Specifies that an actual move be chosen randomly from the set of pure strategies with some specific probabilities.

博弈论课件4-重复博弈

博弈论课件4-重复博弈

4.1.1 为什么研究重复博弈 4.1.2 基本概念


生活中的重复博弈
——你到菜场去买菜,当你担心上当受骗而犹豫不决时,
卖菜的摊主便会对你说:“你放心好了,我天天在这里卖菜, 不会骗你的,如果菜不好你回来找我!‛他强调自己‚天天‛ 在这里卖菜,你通常便会放下心来,与之成交。因为他的这 句话翻译成经济学的语言就是‚我跟你是‘重复博弈’‛! ———而一次性的买卖往往发生在双方以后不再有买卖机会 的时候,特点是尽量谋取暴利并且带欺骗性,比如车站、码 头、旅游景点的东西往往质次价高,其原因就在于买卖双方 很少有‚重复博弈‛的机会。

两人零和博弈的有限次重复博弈 惟一纯策略纳什均衡的有限次重复博弈 多个纯策略纳什均衡的有限次重复博弈 有限次重复博弈的无名氏定理
4.2.1 两人零和博弈的有限次重复博弈

猜硬币博弈
正 面 盖 硬 币 方 正 面 反 面 -1, 1 1, -1
猜硬币方 反 面 1, -1 -1, 1


零和博弈是严格竞争的,重复博弈并不改变这一点。 重复零和博弈不会创造出新的利益。
4.2.1 两人零和博弈的有限次重复博弈



以零和博弈为原博弈的有限次重复博弈与猜硬币博 弈的有限次重复博弈一样,博弈方的正确策略是重 复一次性博弈中的纳什均衡策略。 可用逆推归纳法来证明 可以推广到非零和或多个博弈方,但博弈方的利益 严格对立,没有纯策略纳什均衡的其他严格竞争博 弈中 产生原因:利益关系严格对立,矛盾不可调和

有限次重复博弈民间定理
设原博弈的一次性博弈有均衡得益数组优于w, 那么在该博弈的多次重复中,所有不小于个体理性 得益的可实现得益,都至少有一个子博弈完美纳什 均衡的极限的平均得益来实现它们。

博弈论 SPE 复旦大学 王永钦PPT课件

博弈论 SPE 复旦大学 王永钦PPT课件

Player H
1
T
HH -1 , 1
1 , -1
Player 2
HT
TH
-1 , 1 1 , -1
-1 , 1 1 , -1
TT 1 , -1 -1 rium
• The set of Nash equilibria in a dynamic game of complete information is the set of Nash equilibria of its normal-form.
8
Game tree
• If a node x is a
successor of another
node y then y is called a predecessor of x.
• In a game tree, any node other than the root has a unique predecessor.
Definition: extensive-form representation
• The extensive-form representation of a game specifies:
➢ the players in the game ➢ when each player has the move ➢ what each player can do at each of his or her
• Player 2’s strategies
➢H if player 1 plays H, H if player 1 plays T ➢H if player 1 plays H, T if player 1 plays T ➢T if player 1 plays H, H if player 1 plays T ➢T if player 1 plays H, T if player 1 plays T

复旦大学经济博弈论课件--经济博弈论536页

复旦大学经济博弈论课件--经济博弈论536页
以采用“同意”策略类型博弈方的比例为例,其 动态变化速度可用下列微分方程反映:
d d x tx ( u y u ) x (x x 2 ) x 2 ( 1 x ) x 2 x 3
22.03.2020
课件
14
动态微分方程的相位图
dx/dt 0
0.5
1
x
稳定状态、不动点:x*=0, x*=1
22.03.2020
其中abcd可以是任何得益,根据问题设定。
22.03.2020
课件
17
复制动态分析
复制动态的进化规 则是生物学中生物 特征进化规则 设x为采用策略1的 比例
dx/dt
u1 x a (1 x) b u2 x c (1 x) d u x u1 (1 x) u2
d d x tx(u 1 u )x[u 1x1u (1x)u 2] x(1x)u (u) x(1x)x[(ac)(1x)b (d)]
复制动态 相位图
22.03.2020
x 课件
1
x
18
5.3.3 协调博弈的复制动态 和进化稳定博弈
博弈方2 策略1 策略2 策略1 50,50 49,0 策略2 0,49 60,60 一般2*2对称博弈
dx/dt
11/16
d x F (x ) x (1 x )x [ (a c ) (1 x )b ( d )] dt
22.03.2020
课件
3
5.1.2 有限理性博弈分析框架
最优反应动态:有快速学习能力的小群体成员的 反复博弈
复制动态:学习速度很慢的成员组成的大群0
课件
4
5.2 最优反应动态
5.2.1 协调博弈的有限博弈方 快速学习模型

复旦大学经济博弈论课件--经济博弈论4-文档资料

复旦大学经济博弈论课件--经济博弈论4-文档资料

2019/2/28
课件
16
4.3.2唯一纯策略纳什均衡博弈 的无限次重复博弈
2019/2/28 课件 5
重复博弈的得益
平均得益 :如果一常数 作为重复博弈(有限次 重复博弈
无限次重复博弈)各个 阶段的得益,能产生与 得益序列
, 相同的现在值,则称 为 , 的平均得益 1 , 2 1 , 2
有限次重复博弈不一定 考虑贴现因素
t 1 无限次重复博弈必须考 虑贴现问题 ( 1 ) t t 1
2019/2/28
课件
6
4.2 有限次重复博弈
4.2.1 两人零和博弈的有限次重复博弈 4.2.2唯一纯策略纳什均衡博弈 的有限次重复博弈 4.2.3多个纯策略纳什均衡博弈 的有限次重复博弈 4.2.4 有限次重复博弈的民间定理
2019/2/28 课件 7
4.2.1 两人零和博弈的有限次重复博弈
低 价
20,150 70,70
有唯一纯策略纳什均衡 (70,70) 有限次重复的结果仍然是 (低价,低价)
削价竞争博弈
2019/2/28
课件
10
4.2.3多个纯策略纳什均衡博弈的 有限次重复博弈
厂商2
厂 商 1
H M L
H 5,5 6,0 2,0
M 0,6 3,3 2,0 三价博弈
L 0,2 0,2 1,1
厂 H 商 M 1 L
H 8,8 7,1 3,1
厂商2 M 1,7 4,4 3,1
L 1,3 1,3 2,2
两次重复三价博弈的等价模型
触发策略:两博弈方先试探合作,一旦发现对方不合作则也用不合作报复 博弈方1:第一次选h;如第一次结果为(H,H),则第二次选M,否则选L 博弈方2:同博弈方1

博弈论最全完整-讲解课件

博弈论最全完整-讲解课件

• 王则柯、李杰编著,《博弈论教程》,中国人民大学 出版社,2004年版。
• 艾里克.拉斯缪森(Eric Rasmusen)著,《博弈与信 息:博弈论概论》,北京大学出版社,2003年版。
• 因内思·马可-斯达德勒,J.大卫·佩雷斯-卡斯特里罗著, 《信息经济学引论:激励与合约》,上海财经大学出版 社,2004年版。
学习交流PPT
17
约翰· 海萨尼 1920年 生于美 国
约翰·纳什 1928年生于美国
莱因哈 德·泽尔 腾, 1930 年生于 德国
学习交流PPT
18
1996年诺贝尔经济学奖获得者
英国人詹姆斯·莫里斯 (James A. Mirrlees)和 美国人威廉-维克瑞(William Vickrey)
托马斯·谢林
学习交流PPT
24
导论
三、博弈论的基本类型
学习交流PPT
25
合作博弈与非合作博弈
• 合作博弈(cooperative game) 达成有约束力的协议(binding
agreement),强调团体理性,强调效率、公 正、公平 • 非合作博弈(non-cooperative game)
强调个人理性,其结果可能有效率,也可能 无效率。
三位美国学者乔治-阿克尔洛夫(George A. Akerlof)、迈克尔-斯彭斯(A. Michael Spence)和约瑟夫-斯蒂格利茨(Joseph E. Stiglitz)
获奖理由:在“对充满不对称信息市场进行分 析”领域做出了重要贡献。
学习交流PPT
21
迈克尔·斯彭斯 1948年生于美国的 新泽西,1972年获 美国哈佛大学博士 头衔,现兼任美国 哈佛和斯坦福两所
• 也就是说,需要的是对这样的情况下该选什么 的预期的收敛。这一使得参与者能够成功合作 的共同预期的策略被称为焦点。心有灵犀一点 通。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
How to find a solution ?
Payoffs if Pat is happy with probability 0.5 Pat Opera 2 , 0 , 1 0 Prize Fight 0 , 1 , 0 2
Chris
Opera Prize Fight
Payoffs if Pat is unhappy with probability 0.5
himself and his preference is shown in the following table. Chris cannot figure out whether Pat is happy or not. But Chris believes that Pat is happy with probability 0.5 and unhappy with probability 0.5 海萨尼转换
G { A1 , , An ; T1 , , Tn , p1 , , pn ; u1 , , un }
静态贝叶斯博弈的标准型表达
一个 n 人静态贝叶斯博弈的标准式表达包括: 参与者集合: 1, , n ; 参与者的行动空间(行动集) A1 , , An ; ai Ai 参与者的类型空间 T1 , , Tn ; ti Ti 参与者的推断 p1 , , pn ; pi pi (t i | ti ) 参与人的收益函数 u1 , , un , ui ( a1 , , an ; ti )
不完全信息的囚徒困境
给定囚徒1对囚徒2的推断,囚徒1应当选择什么战略呢? 如果囚徒2是理性的或者是利他主义的,他会选择什么
样的战略呢?
如果囚徒2是理性的,那 么收益 囚徒 1 不, -1 -9 认罪 -9 , 0 -6 , -6 囚徒 2 不认罪 -1 , -1 0 , -9 认罪 -9 , -4 -6 , -10
G { A1 , , An ; T1 , , Tn , p1 , , pn ; u1 , , un }
贝叶斯推断(Bayesian Inference)
贝叶斯公式
p(ti ti ) p(t-i , ti ) p(ti ) p(t-i , ti )
t i T i

p(t-i , ti )
静态贝叶斯博弈的标准型表达
一个 n 人静态贝叶斯博弈的标准式表达包括: 参与者集合: 1, , n ; 参与者的行动空间(行动集) A1 , , An ; ai Ai 参与者的类型空间 T1 , , Tn ; ti Ti 参与者的推断 p1 , , pn ; pi pi (t i | ti ) 参与人的收益函数 u1 , , un , ui ( a1 , , an ; ti )
战略和战略集

战略是一套基于类型(Type)的选择规则,或者说是 函数si
ai = si(ti )

函数的定义域 ti ∈Ti;类型空间或者类型集。 函数的值域 ai ∈Ai;行动空间或者行动集。 函数关系 si 所在的集合Si 则是(纯)战略空间或者 战略集,代表了关于从ti到ai的所有各种可能的函数
G { A1 , , An ; T1 , , Tn , p1 , , pn ; u1 , , un }
海萨尼转换 (Harsanyi transformation)
静态贝叶斯博弈的标准型表达
海萨尼转换(Harsanyi Transformation) : 自然赋予参与者的类型向量: t (t1 , , tn ) 自然告知每个参与者 i 自己的类型 ti ,却不告知其 他参与者的类型; 每个参与者都在自己的可行集中选择 ai Ai , 构成 行动向量/行动组合 ( a1 , , an ) 每个参与者得到自己的收益 ui (a1 , , an ; ti )
Chris Opera Prize Fight
Pat
Opera 2 , 0 , 0 1 Prize Fight 0 , 1 , 2 0
17
Battle of the sexes with incomplete information (version one) cont’d
Best response If Chris chooses opera then Pat’s best response: opera if he is happy, and prize fight if he is unhappy Suppose that Pat chooses opera if he is happy, and prize fight if he is unhappy. What is Chris’ best 不知道i的类型 response? If Chris chooses opera then she get a payoff 2 if Pat 的博弈对手-i, is happy, or 0 if Pat is unhappy. Her expected payoff is 20.5+ 00.5=1 需要推算i在每 If Chris chooses prize fight then she get a payoff 0 if 一种可能的类型 Pat is happy, or 1 if Pat is unhappy. Her expected payoff is 00.5+ 10.5=0.5
关系的总和。
静态贝叶斯博弈:什么是战略
战略和战略集

从类型空间到行动空间上所有的一一对应关系构成 战略空间。

考虑到战略空间的复杂性,并且通常使用行动空间
即可刻画博弈,故而在静态贝叶斯博弈当中,我们 一般使用行动空间。 贝叶斯博弈的特点:不知道i的类型的博弈对手-i, 需要推算i在每一种可能的类型下的行动集。
Opera Chris Prize Fight
Opera
Prize Fight
2 ,
0 ,
1
0
0 ,
1 ,
0
2
15
Battle of the sexes with incomplete information (version one)
Now Pat’s preference depends on whether he is happy. If he is happy then his preference is the same. If he is unhappy then he prefers to spend the evening by

* ui (si* (t1 ),, si*1(ti 1), ai , si*1(ti 1), , sn (tn ); t) pi (ti ti )
亦即,没有参与者愿意改变自己的战略,即使这种
改变只涉及一种类型下的一个行动。
Battle of the sexes
At the separate workplaces, Chris and Pat must choose to
attend either an opera or a prize fight in the evening. Both Chris and Pat know the following:
Both
would like to spend the evening together. But Chris prefers the opera. Pat prefers the prize fight. Pat
-4, -9
-9, 0
-1,-1
静态贝叶斯博弈的标准型表达
海萨尼转换(Harsanyi Transformation) : 不完全信息变成了一个不完美信息,从而可以被正 式地讨论。
静态贝叶斯博弈的标准型表达
一个 n 人静态贝叶斯博弈的标准式表达包括: 参与者集合: 1, , n ; 参与者的行动空间(行动集) A1 , , An ; ai Ai 参与者的类型空间 T1 , , Tn ; ti Ti 参与者的推断 p1 , , pn ; pi pi (t i | ti ) 参与人的收益函数 u1 , , un , ui ( a1 , , an ; ti )
Payoffs if Pat is unhappy
Chris Opera Prize Fight Pat Opera Prize Fight
2 , 0 ,
0 1
0 , 1 ,
2 0
16
Battle of the sexes with incomplete information (version one) cont’d
Static (or SimultaneousMove) Games of Incomplete Information-Lecture 4
Yongqin Wang, CCES, Fudan
完全信息静态博弈的标准型表达
一个 n 人完全信息静态博弈的标准式表达包括: 参与者集合: 1, , n ; 参与者的行动空间(行动集) A1 , , An ; 参与人的收益函数 u1 , , un 。 我们用 G { A1 , , An ; u1 , , un } 来表示这一博弈
6
如果囚徒2是利他的,那 么收益 囚徒 1 不认罪 认罪
静态贝叶斯博弈的标准型表达
海萨尼转换 自然 P(理性) 囚徒2 认罪 不认罪 认罪 囚徒1 认罪 不认罪 认罪 不认罪 认罪 P(利他) 囚徒2 不认罪
囚徒1
认罪 不认罪
囚徒1
囚徒1
不认罪
-6, -6
0, -9
-9, 0
-1,-1
-10,-6
p(ti ti ) p(t-i , ti ) p(ti )
条件概率 联合概率 边缘概率 先验概率
相关文档
最新文档