博弈论7不完全信息动态博弈概论
合集下载
第5讲-不完全信息动态博弈

第5讲 不完全信息动态博弈
1.基本思路
• 在不完全信息动态博弈(dynamic game of incomplete information)中,“自然”首先选择 参与人的类型,参与人自己知道,其他参与人不 知道;在自然选择之后,参与人开始行动,参与 人的行动有先有后,后行动者能观测到先行动者 的行动,但不能观测到先行动者的类型。
第5讲 不完全信息动态博弈
不一样的。假定存在一个价格P*,只有低成本企业 才有利可图,而高成本企业司不敢模仿这个价格 的。 • 那么,精炼贝叶斯均衡是,低成本在位者选择P*, 高成本企业选择一个较高的垄断价格。如果进入 者观察到在位者选择了P*,这就推断其为低成本, 不进入;否则,就认为在位者是高成本,进入。 • 这就是由米尔格罗姆和罗伯茨于1982年提出的著 名的“垄断限价模型”。
马上认为这个人一定是好人,除非这件好事非常非常地好,因为否 则的话,坏人总是有积极性干件好事以使我们认为他是一个好人)。 当然,如果我们认为坏人干好事并不仅仅是为了假装好人,我们对 他的看法就不会改变,因为,根据贝叶斯法则:
第5讲 不完全信息动态博弈
ProbBP GT p*1 =1
q*0 P*1 这里,p>0是坏人干好事的概率,q>0好人干好事的概率。 从上面例子可以看到,我们如何改变对一个人的看法不仅依赖于我们 认为他是好人或坏人的先验概率,而且依赖于我们如何“认为”好人 干好事和坏人干好事的条件概率。
• 但是,因为参与人的行动是类型依存的,每个参 与人的行动都传递着有关自己类型的某种信息, 后行动者可以通过观察先行动者所选择的行动来
第5讲 不完全信息动态博弈
推断其类型或修正对其类型的先验信念(概率分 布),然后选择自己的最优行动。先行动者预测 到自己的行动将被后行动者所利用,就会设法选 择传递对自己最有利的信息,避免传递对自己不 利的信息。 • 因此,博弈过程不仅是参与人选择行动的过程, 而且是参与人不断修正信念的过程。
1.基本思路
• 在不完全信息动态博弈(dynamic game of incomplete information)中,“自然”首先选择 参与人的类型,参与人自己知道,其他参与人不 知道;在自然选择之后,参与人开始行动,参与 人的行动有先有后,后行动者能观测到先行动者 的行动,但不能观测到先行动者的类型。
第5讲 不完全信息动态博弈
不一样的。假定存在一个价格P*,只有低成本企业 才有利可图,而高成本企业司不敢模仿这个价格 的。 • 那么,精炼贝叶斯均衡是,低成本在位者选择P*, 高成本企业选择一个较高的垄断价格。如果进入 者观察到在位者选择了P*,这就推断其为低成本, 不进入;否则,就认为在位者是高成本,进入。 • 这就是由米尔格罗姆和罗伯茨于1982年提出的著 名的“垄断限价模型”。
马上认为这个人一定是好人,除非这件好事非常非常地好,因为否 则的话,坏人总是有积极性干件好事以使我们认为他是一个好人)。 当然,如果我们认为坏人干好事并不仅仅是为了假装好人,我们对 他的看法就不会改变,因为,根据贝叶斯法则:
第5讲 不完全信息动态博弈
ProbBP GT p*1 =1
q*0 P*1 这里,p>0是坏人干好事的概率,q>0好人干好事的概率。 从上面例子可以看到,我们如何改变对一个人的看法不仅依赖于我们 认为他是好人或坏人的先验概率,而且依赖于我们如何“认为”好人 干好事和坏人干好事的条件概率。
• 但是,因为参与人的行动是类型依存的,每个参 与人的行动都传递着有关自己类型的某种信息, 后行动者可以通过观察先行动者所选择的行动来
第5讲 不完全信息动态博弈
推断其类型或修正对其类型的先验信念(概率分 布),然后选择自己的最优行动。先行动者预测 到自己的行动将被后行动者所利用,就会设法选 择传递对自己最有利的信息,避免传递对自己不 利的信息。 • 因此,博弈过程不仅是参与人选择行动的过程, 而且是参与人不断修正信念的过程。
不完全信息动态博弈

有偏好的早餐。软弱型假装成粗暴型而避免冲突,获得更高利润。
b,1 D [p] Q
D 0,1 B [q]
b+d,0 0,-1
N R
D [1-p] Q
N
0.1
N
0.9
N d,0 R D b,-
1 B [1-q]
N
信号博弈的完美贝叶斯均衡
斯彭斯的劳动力模型
考察下面的信号博弈模型(斯彭斯,1974):在模型中,有两个参 与人,一个雇主和一个雇员,记雇员为参与人1(信号发送者),雇 主为参与人2(信号接收者),雇主是不知情的参与人。博弈顺序为:
,不偏好的早餐价值为0,而避免冲突价值
。
对接收者来说,与软弱型(粗暴型)冲突的支付为
1(-1),所有其他支付为0。
“啤酒和热狗”信号博弈
在啤酒和热狗博弈中,
是发送者的一个分离策略,这里
代表在发送者是软弱类型的情况下,选择热狗。如果 ,那
么,发送者的策略
和接收者的策略
以及后验概率
和 是这个博弈的完美贝叶斯均衡。这里 代表在发送 者选择热狗的情况下,接收者选择冲突,也可以类似地解释 。
不完全信息动态博弈
1.1.1 基本概念
不完全信息意味着至少有一个参与人拥有私人信息, 通常用类型表示拥有不同私人信息的参与人,类型由“ 自然”或“上帝”给定。
博弈顺序: (1)“自然”选择参与人的类型,并 将类型告诉参与人自己,不告诉其他参与人,只将类型 分布告诉其他参与人;(2)参与人开始行动,参与人 的行动有先有后,后行动者能观察到先行动者的行动, 而不能观察到先行动者的类型。
(surly);B代表啤酒,Q代表热狗;D代表与发送者冲突(duel),
N代表不与发送者冲突。 [p]表示当接收者接收到信号 后,认为发
第4讲:不完全信息动态博弈

18
作业
1、下图是一个信号传递博弈:自然首先选择参与人1的类型,参与人1知道自 然的选择,参与人2不知道,只知道参与人1属于t1和t2的可能性相等;参与 人1然后选择信号L或R;参与人2最后选择行动U或D,博弈结束,效用向量 如终点结所示。给出找个博弈的所有纯策略分离均衡和混同均衡。
N
t1
1
L
R
t2 L
在所有这些均衡中,低成本在位者限制自己的价格低于垄断价格以阻止进
入者进入。
15
不完全信息重复博弈与声誉
声誉模型涉及不完全信息重复博弈中的合作行为。
•我们已经知道,在完全信息情况下,不论阶段博弈重复多少次,只有重复 的次数是有限的,唯一的均衡是每个参与人在每次博弈中选择单次静态的 均衡策略,从而,有限次重复不可能导致参与人的合作行为。
6
则精炼贝叶斯均衡定义为:
精炼贝叶斯均衡是一个策略组合s*()(s1*(1), ,sn*(n)) 和一个后 验概率组合p(p1, ,pn) ,满足: 1、精炼条件:对于所有的参与人i,在每一个信息集h,
si*(si,i)argmax pi(i |ahi)ui(si,si,i) si
2、贝叶斯法则:pi(i |ahi)是使用贝叶斯法则从先验概率 pi(i |i)观测到的ahi 和最优策略 s*i 得到的。
1
R
2
2
2
2
U
DU
DU
D
U
D
(1,1) (2,0) (2,2) (0,0) (0,0) (0,1) (1,0) (1,1)
19
2、一对夫妇离婚是要分财产。根据法律规定,婚姻期间形成的财产的所有 权各占一半。但因为家庭财产由不同的部分组成,要对财产的价值作一 个客观的估计是很困难的;特别地,由于个人的兴趣和出于对未来生活 的考虑,夫妻双方对不同财产的评价是不同的。因此,二人免不了要对 什么物品归谁所有而发生争执。经过几个回合的谈判,两人同意按以下 规则办事:女方对物品作价(如电视机为3000元,电冰箱为2000元,等 等);如果男方愿意支付女方1/2的价格,该物品归男方所有;否则,女 方必须支付男方1/2的价格,该物品归女方所有。考虑单件物品(如电视 机),我们用vM和vF分别代表该物品对男方和女方的真实价值。假定vM 和vF都是私人信息,但双方都知道vM和vF在区间[2000,3000]上独立、均 匀分布(即分布函数是共同知识),求出精炼贝叶斯纳什均衡。
作业
1、下图是一个信号传递博弈:自然首先选择参与人1的类型,参与人1知道自 然的选择,参与人2不知道,只知道参与人1属于t1和t2的可能性相等;参与 人1然后选择信号L或R;参与人2最后选择行动U或D,博弈结束,效用向量 如终点结所示。给出找个博弈的所有纯策略分离均衡和混同均衡。
N
t1
1
L
R
t2 L
在所有这些均衡中,低成本在位者限制自己的价格低于垄断价格以阻止进
入者进入。
15
不完全信息重复博弈与声誉
声誉模型涉及不完全信息重复博弈中的合作行为。
•我们已经知道,在完全信息情况下,不论阶段博弈重复多少次,只有重复 的次数是有限的,唯一的均衡是每个参与人在每次博弈中选择单次静态的 均衡策略,从而,有限次重复不可能导致参与人的合作行为。
6
则精炼贝叶斯均衡定义为:
精炼贝叶斯均衡是一个策略组合s*()(s1*(1), ,sn*(n)) 和一个后 验概率组合p(p1, ,pn) ,满足: 1、精炼条件:对于所有的参与人i,在每一个信息集h,
si*(si,i)argmax pi(i |ahi)ui(si,si,i) si
2、贝叶斯法则:pi(i |ahi)是使用贝叶斯法则从先验概率 pi(i |i)观测到的ahi 和最优策略 s*i 得到的。
1
R
2
2
2
2
U
DU
DU
D
U
D
(1,1) (2,0) (2,2) (0,0) (0,0) (0,1) (1,0) (1,1)
19
2、一对夫妇离婚是要分财产。根据法律规定,婚姻期间形成的财产的所有 权各占一半。但因为家庭财产由不同的部分组成,要对财产的价值作一 个客观的估计是很困难的;特别地,由于个人的兴趣和出于对未来生活 的考虑,夫妻双方对不同财产的评价是不同的。因此,二人免不了要对 什么物品归谁所有而发生争执。经过几个回合的谈判,两人同意按以下 规则办事:女方对物品作价(如电视机为3000元,电冰箱为2000元,等 等);如果男方愿意支付女方1/2的价格,该物品归男方所有;否则,女 方必须支付男方1/2的价格,该物品归女方所有。考虑单件物品(如电视 机),我们用vM和vF分别代表该物品对男方和女方的真实价值。假定vM 和vF都是私人信息,但双方都知道vM和vF在区间[2000,3000]上独立、均 匀分布(即分布函数是共同知识),求出精炼贝叶斯纳什均衡。
博弈论概述

“坦白”是A的占优策略。同样,“坦白”也是B的占优策略。
一般地,称 si*为局中人i的(严格)占优策略, 若对应所有的
si , s i*是i的严格最优策略 , 即:
ui (si*, si ) ui (si' , si ) si , si' si*
对应地,所有的 si' si* 被称为“劣策略”。注意:这
甲的策略
1
2
3
乙的策略
1
7
8
9
2
6
2
3
3
5
4
0
1.乙先行动。若乙选1,则甲选3;乙选2,则甲选1;乙选3, 则甲选1。乙在行动时会估计到甲的行动,它估计三种选择 中的最高代价为策略1(损失900万),其次为策略2(损失 600万),最低为策略3(损失为500万)。因此,乙必选代 价最低的策略3。——最大最小原理。结论:乙选择3,甲选 1作为回应,乙损失500万,甲获益500万。
在博弈论里,一个博弈可以有两种表述方式:一种是策 略式(strategic form representation)表述,另一种是 扩展式( extensive form representation )表述。前者 适合于讨论静态博弈,后者适合于讨论动态博弈。在策略式 表述中,所有参与人同时选择各自的策略,所有参与人选择 的策略一起决定每个参与人的支付。
2007 - Leonid Hurwicz, Eric S. Maskin, Roger B. Myerson 2005 - Robert J. Aumann, Thomas C. Schelling 2001 - George A. Akerlof, A. Michael Spence, Joseph E.
一般地,称 si*为局中人i的(严格)占优策略, 若对应所有的
si , s i*是i的严格最优策略 , 即:
ui (si*, si ) ui (si' , si ) si , si' si*
对应地,所有的 si' si* 被称为“劣策略”。注意:这
甲的策略
1
2
3
乙的策略
1
7
8
9
2
6
2
3
3
5
4
0
1.乙先行动。若乙选1,则甲选3;乙选2,则甲选1;乙选3, 则甲选1。乙在行动时会估计到甲的行动,它估计三种选择 中的最高代价为策略1(损失900万),其次为策略2(损失 600万),最低为策略3(损失为500万)。因此,乙必选代 价最低的策略3。——最大最小原理。结论:乙选择3,甲选 1作为回应,乙损失500万,甲获益500万。
在博弈论里,一个博弈可以有两种表述方式:一种是策 略式(strategic form representation)表述,另一种是 扩展式( extensive form representation )表述。前者 适合于讨论静态博弈,后者适合于讨论动态博弈。在策略式 表述中,所有参与人同时选择各自的策略,所有参与人选择 的策略一起决定每个参与人的支付。
2007 - Leonid Hurwicz, Eric S. Maskin, Roger B. Myerson 2005 - Robert J. Aumann, Thomas C. Schelling 2001 - George A. Akerlof, A. Michael Spence, Joseph E.
不完全信息动态博弈-精练贝叶斯纳什均衡

不完全信息动态博弈-精练贝叶斯纳什均衡
一 精练贝叶斯纳什均衡 基本思路
贝叶斯法则
精练贝叶斯纳什均衡 不完美信息博弈的精练贝叶斯均衡 二 信号传递博弈及其应用举例 三 博弈论概念简要总结
基本思路-不完全信息动态博弈
类型:自然首先选择参与人的类型,参与人自己知道,其 他参与人不知道。--不完全信息
行动:行动有先有后,后行动者能观测到先行动者的行动, 但不能观测到其类型。--动态博弈 但是,参与人是类型依存型的,每个参与人的行动都 传递有关自己类型的信息,后行动者可以通过观察先行动 者的行动来推断自己的最优行动。先行动者预测到自己的 行动被后行动者利用,就会设法传递对自己最有利的信息。
不完全信息动态博弈过程不仅是参与人选择行动的过程, 而且是参与人不断修正信念的过程。
[x]
高
T=2,如果进入者已进入,在位 者成本函数为共同知识,若在位 者为高成本,p=5时,每个企业 利润为3,扣除进入成本2,进入 者利润为1。若在位者为低成本, p=4,在位者利润是5,进入者成 本为1,扣除进入成本2,其利润 为-1。
P=6
进入者 进入 不进入 进入 不进入 进入 不进入 进入 不进入 进入
价格
在位者高成本时的利润 在位者低成5
6 9
P=6
7 8
基本思路-不完全信息动态博弈
进入者只有一种类型:进入成本为2,如果进入,生产成本函数与在 位者高成本函数相同。
T=2,如果进入者已进入,在位者成本函数为共同知识,若在位者为 高成本,企业企业成本函数相同,对称库诺特均衡产量下的价格p=5时, 每个企业利润为3,扣除进入成本2,进入者利润为1。若在位者为低成本, 两个企业成本函数不同,非对称库诺特均衡产量下的价格p=4,在位者利润 是5,进入者成本为1,扣除进入成本2,其利润为-1。
一 精练贝叶斯纳什均衡 基本思路
贝叶斯法则
精练贝叶斯纳什均衡 不完美信息博弈的精练贝叶斯均衡 二 信号传递博弈及其应用举例 三 博弈论概念简要总结
基本思路-不完全信息动态博弈
类型:自然首先选择参与人的类型,参与人自己知道,其 他参与人不知道。--不完全信息
行动:行动有先有后,后行动者能观测到先行动者的行动, 但不能观测到其类型。--动态博弈 但是,参与人是类型依存型的,每个参与人的行动都 传递有关自己类型的信息,后行动者可以通过观察先行动 者的行动来推断自己的最优行动。先行动者预测到自己的 行动被后行动者利用,就会设法传递对自己最有利的信息。
不完全信息动态博弈过程不仅是参与人选择行动的过程, 而且是参与人不断修正信念的过程。
[x]
高
T=2,如果进入者已进入,在位 者成本函数为共同知识,若在位 者为高成本,p=5时,每个企业 利润为3,扣除进入成本2,进入 者利润为1。若在位者为低成本, p=4,在位者利润是5,进入者成 本为1,扣除进入成本2,其利润 为-1。
P=6
进入者 进入 不进入 进入 不进入 进入 不进入 进入 不进入 进入
价格
在位者高成本时的利润 在位者低成5
6 9
P=6
7 8
基本思路-不完全信息动态博弈
进入者只有一种类型:进入成本为2,如果进入,生产成本函数与在 位者高成本函数相同。
T=2,如果进入者已进入,在位者成本函数为共同知识,若在位者为 高成本,企业企业成本函数相同,对称库诺特均衡产量下的价格p=5时, 每个企业利润为3,扣除进入成本2,进入者利润为1。若在位者为低成本, 两个企业成本函数不同,非对称库诺特均衡产量下的价格p=4,在位者利润 是5,进入者成本为1,扣除进入成本2,其利润为-1。
第4章 不完全信息动态博弈

精炼贝叶斯均衡
运用子博弈精炼均衡概念的逻辑,将从每一个 信息集开始的博弈的剩余部分称为一个“后续 博弈”(不同于子博弈,因为子博弈必须开始 于单结信息集,并且不能切割信息集), 一个“合理”的均衡要求,给定每一个参与人 有关其他参与人类型的后验信念,参与人的战 略组合在每一个后续博弈上构成贝叶斯均衡。 假定参与人(在所有可能的情况下)根据贝叶斯 法则修正先验信念,并且,每个参与人都假定 其他参与人选择的是均衡战略。
战略空间与支付函数
如果在位者是高成本,两个企业的成本函数相 同,对称库诺特均衡产量下的价格为p=5,每 个企业的利润是3,扣除进入成本2,进入者的 净利润是1; 如果在位者是低成本,两个企业的成本函数不 同,非对称库诺特均衡产量下的价格是p=4, 在位者的利润是5,进入者的利润是1,扣除进 入成本2,进入者的净利润是-1。
精炼贝叶斯均衡
精炼贝叶斯均衡是均衡战略和均衡信念的结 合 , 给 定 信 念 p = ( p1 , … , pn ) , 战 略 组 合
s*=(s*1, …, s*n)是最优的;给定战略s*=(s*1, …, ) s*=(s* s*n),信念p=(p1,…,pn)是使用贝叶斯法则从 均衡战略和所观测到的行动得到的பைடு நூலகம் 在精炼贝叶斯均衡中,后验概率依赖于均衡战 略,均衡战略依赖于后验概率,如果我们不知 道先行动者如何选择,我们就不可能知道后行 动者应该如何选择,必须使用前向法进行贝叶 斯修正。
不完全信息动态博弈 -市场进入阻挠
一个单阶段非最优价格会减少现期利润,但如 果它能阻止进入者进入,从而使在位者在第2 阶段得到垄断利润,而不是库诺特均衡利润, 如果垄断利润与库诺特均衡利润之间的差距足 够大,如果在位者有足够的耐心,选择一个单 阶段非最优价格可能是最优的。 在均衡情况下,在位者的价格选择不仅与其成 本函数有关,而且与进入者的后验概率有关; 不论先验概率µ为多少,单阶段最优垄断价格 不构成一个均衡。
07 不完全信息动态博弈

行为方行为
a1
声明方 类型
a2
1,1 2,0 1. 2. 3. 不同类型的声明方必须偏好行为方不同行为 对应声明方不同类型,行为方必须偏好不同行为 行为方的偏好必须与声明方具有一致性
t1 t2
2,0 1,1
不能传递信息(声明方 与行为方偏好相反)
练习
行为方行为
a1
声明方 t2 类型
t3
t1
0,1 0,0 0,0
信号博弈精炼贝叶斯均衡
1.信号接收方 R在观察到信号发出方 S的信号 m j 之后,必须有关于 S的类型 的判断,即 S选择 m j时, S是每种类型 ti的概率分布 p (ti | m j ) ≥ 0, ∑ p (ti |m j ) = 1
ti
2.给定 R的判断 p (ti | m j )和 S的信号 m j,R的行为 a * ( m j )必须使 R的期望得益 最大,即 a * ( m j )是最大化问题 max ∑ p (ti |m j )u R (ti , m j , ak )的解
引例2 引例2
N
[u ] 高
在位者 P=4 进入者 进 不进 进 进 不进 不进 进 P=6
底 [1 − u ]
P=5
P=4
P=5
P=6
进 不进
不进 进
不进
在位者的垄断利润情况 P=4 高成本 低成本 2 6 P=5 6 9 P=6 7 8
两企业同在市场的各自利润情况 均衡价格 高成本 低成本 5 4 在位者 3 5 进入者 3-2=1 1-2= -1
那么在第一阶段,低成本的甲权衡: 那么在第一阶段,低成本的甲权衡: 选择价格5 无法扭转乙的信念,甲的收益为14 14; 选择价格5,无法扭转乙的信念,甲的收益为14; 选择价格4 进一步揭示自己的低成本,则乙不进入,甲收益15 15; 选择价格4,进一步揭示自己的低成本,则乙不进入,甲收益15; 权衡比较选择价格4 权衡比较选择价格4 高成本的甲则需要权衡: 高成本的甲则需要权衡: 选择价格为6,导致乙坚定的进入市场,甲收益为10 选择价格为 ,导致乙坚定的进入市场,甲收益为 选择价格5,乙无法修正先验概率则进入,甲收益为9 选择价格 ,乙无法修正先验概率则进入,甲收益为 选择4不划算 选择 不划算 权衡比较选择价格6 权衡比较选择价格
非完全信息动态博弈博弈论吉本斯.pptx

27
第28页/共59页
Example 1-厂商的分离均衡纯策略
•.
(保修,不保修)
(1,0.5) Y [1] 保修 厂商 不保修[0] Y (-1,1)
(0,0) N
H
[0.5]
N (0,0)
客户
自然
客户
(-1,-0.5)Y [0]
(0,0) N
保修
[0.5] L
不保修 [1] 厂商
Y (1,0.5) N (0,0)
19
第20页/共59页
Signaling game
• Sender和 Receiver 都有四个纯策略.
Sender的纯策略:
(m1,m1), (m1,m2), (m2,m1), (m2,m2)
(m1,m1), (m2,m2):混同(pooling strategies)策略
(m1,m2), (m2,m1):分离(separating strategies)策略
q1 1 1 q2
1
11
第12页/共59页
Requirement 4
• 要求 4. 对处于均衡路径之外的信息集, 推断由贝叶斯法则以及可能情况下的参与人的均衡策略给出. • 定义 .满足要求1到4的策略和推断构成博弈的完美贝叶斯均衡(perfect Bayesian equilibrium ).
17
第18页/共59页
Signaling game
•图
a1
m1
S
m2
a1
a2
t1 [p]
a2
R
N
R
a1
[1-p] a1
t2
a2
m1 S
m2
a2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
❖ 参与人i=1,2;
❖ 参与人1(在位者)的行动空间
A1={m1 (低价格),m2(高价格)} ❖ 参与人1的类型空间
T1={t11 (高成本),t12 (低成本)} ❖ 参与人2(进入者)的行动空间
A2= a1 (进入),a2(不进入)} ❖ 参与人2的类型空间T2={t2},单点集,因此参与人
参与人1对参与人2的信念p1=1; ❖ 参与人2对参与人1的信念p2=(p,1-p); ❖ 参与人1先行动,参与人2后行动。
按照海萨尼转换,该博弈表示为:
L
(2, 2)
t11
[P] 1
R
2
N t12
[1 P] 1
R
L
2
(2, 2)
A
B
A
B
(0, 0)
(0,1)
(1, 0)
(3,1)
图7-1
❖ቤተ መጻሕፍቲ ባይዱ例题2:考察一个市场进入博弈
❖ 但(L,A)又排除不掉,因为没有子博弈。 ❖ 假设在参与人2的信息集h2上,观察到R产生
的后验概率为 p(t11 | R) q, p(t12 | R) 1 q,
❖
❖ 这时,参与者2选择A的期望收益为: 0*q+0*(1-q)=0 选择B的期望收益为: 1*q+1*(1-q)=1>0
所以参与人2一定会选择B.
❖ 当参与人 i在他的某个信息集h上观察到其他
n-1个参与人行动组合 ahi ,条件概率 , pi (ti | ahi ) 是参与者i在观察到 ahi 的情况下,
对参与者的类型t-i的修改,这个修正产生
pi (ti | ahi )的推断称为后验概率
❖ 在例1图7-1中,设R(t11),R(t12)是参与人1的 两个战略。从而该博弈表示为完全但不完美
❖ 假定i属于类型tk的先验概率为
K
p(tk ) 0, p(tk ) 1 k 1
❖ 给定i属于tk,i选择ah的条件概率为
p(ah tk ), p(ah tk ) 1 h
❖ 则i选择ah的全概率是:
❖ 根据概率公式,观测到i选择了行 动ah,i属于类型tk的后验概率为:
1对参与人2的信念p1=1; ❖ 参与人2对参与人1的信念p2=(p,1-p);
按照海萨尼转换,该博弈表示为:
N
t11
t12
1 [P]
m1
m2
2
[1 P]
m1
1 2
m2
a1
a2
a1
a2 a1
a2
a1
a2
图7-2
❖ 注释:
❖ 参与人i对其他参与人的类型(私人信息)t-i的 信念 pi (ti | ti ) 称为先验概率。
❖ 为了进一步强化(即加强对条件的要求) 贝叶斯纳什均衡,这和子博弈精炼纳什 均衡强化了纳什均衡是相同的。
❖ 用更为广义的后续博弈的概念来代替子博弈,后续 博弈可开始于任何信息集(而不论是否单结)。
❖ 其后,进行相似的分析:如果参与者的战略要构成 为博弈的一个精练贝叶斯均衡,它不仅必须是整个 博弈的贝叶斯纳什均衡,而且必须构成每一个后续 博弈的贝叶斯均衡。
7.1.2 贝叶斯法则
❖ 统计学上,修正之前的判断称为 “先验概率”,修正之后的判断称为 “后验概率”。贝叶斯法则是人们根据 新的信息从“先验概率”得到“后验概 率”的基本方法。
❖ 一个不完全信息博弈中,假定参与人的 类型是独立分布的,参与人i有K个可能 类型,有H个可能行动。
❖ 用tk和ah分别代表一个特定的类型和一 个特定的行动。
的动态博弈图7-3 。
1
L
(2, 2) R
R (t11 )
[P] 2
R(t12 ) [1 P] 2
A B
A
(0, 0)
(0,1) (1,0)
B (3,1)
图7-3
参与人2
A
B
参
L
2,2
2,2
与
R(t11)[ p]
0,0
0,1
人
R(t12 )[1 p]
1,0
3,1
1
对于参与人2的任何信念p2 ( p,1- p),行动A都要弱劣与B, 因此均衡(L, A)是参与人2的不可信威胁:
❖ 因此,博弈过程不仅是参与人选择行动 的过程,而且是参与人不断修正“信念” 的过程。
❖ 例题1:
❖ 参与人i=1,2;
❖ 参与人1的行动空间A1={L,R} ❖ 参与人1的类型空间T1={t11,t12} ❖ 参与人2的行动空间A2={A,B} ❖ 参与人2的类型空间T2={t2},单点集,因此
第七章 不完全信息动态博弈
❖ 至少部分博弈方没有关于得益 全部信息的动态博弈,称“不完 全信息动态博弈”或“动态贝叶 斯博弈’。
❖ 在不完全信息动态博弈中,按照海萨尼转换, 博弈进行的先后顺序可以描述为:
❖ 首先,“自然” 选择参与人的类型,参与人 自己知道,其他参与人不知道;
❖ 其次,参与人开始行动,参与人的行动有先 有后,后行动者能观测到先行动者的行动, 但不能观测到先行动者的类型。
❖ [例子]:市场进入博弈(该博弈的扩展式表述模型 见图7.2)
❖ 如果我们将从每一个信息集开始的博弈 的剩余部分称为一个“后续博弈”(注 意与子博弈的不同:子博弈必须开始于 单结信息集),一个“合理”的均衡应 该满足:
❖ 给定每一个参与人有关其它参与人类型 的后验信息,参与人的战略组合在每一 个后续博弈上构成贝叶斯均衡。
❖ 参与人1知道理性的参与人2轮到他决策 的信息集h2上会选择B,因此参与人的最 优战略就是R(t12).
❖ 既然参与人1决定选择R(t12),因此参与 人2修正的信念推断是
p(t11 | R) 0, p(t12 | R) 1,
❖ ,所以就删掉了( L,A )
7.1 精炼贝叶斯纳什均衡
❖ 7.1.1后续博弈 ❖ 引入精炼贝叶斯均衡的目的是:
❖ 参与人的行动是类型依存的,每个参与人的 行动都传递着有关自己类型的某种信息,
❖ 后行动者可以通过观察先行动者所选择的行 动来推断其类型或修正对其类型的先验信念 (概率分布),然后选择自己的最优行动。
❖ 先行动者预测到自己的行动将被后行动 者所利用,就会设法选择传递对自己最 有利的信息,避免传递对自己不利的信 息。
❖ 精炼贝叶斯均衡是贝叶斯均衡、子博弈精练 均衡和贝叶斯推断的结合。它要求:
❖ (1)在每一个信息集上,决策者必须有一 个定义在属于该信息集的所有决策结上的一 个概率分布(信念);
❖ (2)给定该信息集上的概率分布和其他参 与人的后续战略,参与人的行动必须是最优 的;
❖ (3)每一个参与人根据贝叶斯法则和均衡 战略修正后验概率。
❖ 参与人1(在位者)的行动空间
A1={m1 (低价格),m2(高价格)} ❖ 参与人1的类型空间
T1={t11 (高成本),t12 (低成本)} ❖ 参与人2(进入者)的行动空间
A2= a1 (进入),a2(不进入)} ❖ 参与人2的类型空间T2={t2},单点集,因此参与人
参与人1对参与人2的信念p1=1; ❖ 参与人2对参与人1的信念p2=(p,1-p); ❖ 参与人1先行动,参与人2后行动。
按照海萨尼转换,该博弈表示为:
L
(2, 2)
t11
[P] 1
R
2
N t12
[1 P] 1
R
L
2
(2, 2)
A
B
A
B
(0, 0)
(0,1)
(1, 0)
(3,1)
图7-1
❖ቤተ መጻሕፍቲ ባይዱ例题2:考察一个市场进入博弈
❖ 但(L,A)又排除不掉,因为没有子博弈。 ❖ 假设在参与人2的信息集h2上,观察到R产生
的后验概率为 p(t11 | R) q, p(t12 | R) 1 q,
❖
❖ 这时,参与者2选择A的期望收益为: 0*q+0*(1-q)=0 选择B的期望收益为: 1*q+1*(1-q)=1>0
所以参与人2一定会选择B.
❖ 当参与人 i在他的某个信息集h上观察到其他
n-1个参与人行动组合 ahi ,条件概率 , pi (ti | ahi ) 是参与者i在观察到 ahi 的情况下,
对参与者的类型t-i的修改,这个修正产生
pi (ti | ahi )的推断称为后验概率
❖ 在例1图7-1中,设R(t11),R(t12)是参与人1的 两个战略。从而该博弈表示为完全但不完美
❖ 假定i属于类型tk的先验概率为
K
p(tk ) 0, p(tk ) 1 k 1
❖ 给定i属于tk,i选择ah的条件概率为
p(ah tk ), p(ah tk ) 1 h
❖ 则i选择ah的全概率是:
❖ 根据概率公式,观测到i选择了行 动ah,i属于类型tk的后验概率为:
1对参与人2的信念p1=1; ❖ 参与人2对参与人1的信念p2=(p,1-p);
按照海萨尼转换,该博弈表示为:
N
t11
t12
1 [P]
m1
m2
2
[1 P]
m1
1 2
m2
a1
a2
a1
a2 a1
a2
a1
a2
图7-2
❖ 注释:
❖ 参与人i对其他参与人的类型(私人信息)t-i的 信念 pi (ti | ti ) 称为先验概率。
❖ 为了进一步强化(即加强对条件的要求) 贝叶斯纳什均衡,这和子博弈精炼纳什 均衡强化了纳什均衡是相同的。
❖ 用更为广义的后续博弈的概念来代替子博弈,后续 博弈可开始于任何信息集(而不论是否单结)。
❖ 其后,进行相似的分析:如果参与者的战略要构成 为博弈的一个精练贝叶斯均衡,它不仅必须是整个 博弈的贝叶斯纳什均衡,而且必须构成每一个后续 博弈的贝叶斯均衡。
7.1.2 贝叶斯法则
❖ 统计学上,修正之前的判断称为 “先验概率”,修正之后的判断称为 “后验概率”。贝叶斯法则是人们根据 新的信息从“先验概率”得到“后验概 率”的基本方法。
❖ 一个不完全信息博弈中,假定参与人的 类型是独立分布的,参与人i有K个可能 类型,有H个可能行动。
❖ 用tk和ah分别代表一个特定的类型和一 个特定的行动。
的动态博弈图7-3 。
1
L
(2, 2) R
R (t11 )
[P] 2
R(t12 ) [1 P] 2
A B
A
(0, 0)
(0,1) (1,0)
B (3,1)
图7-3
参与人2
A
B
参
L
2,2
2,2
与
R(t11)[ p]
0,0
0,1
人
R(t12 )[1 p]
1,0
3,1
1
对于参与人2的任何信念p2 ( p,1- p),行动A都要弱劣与B, 因此均衡(L, A)是参与人2的不可信威胁:
❖ 因此,博弈过程不仅是参与人选择行动 的过程,而且是参与人不断修正“信念” 的过程。
❖ 例题1:
❖ 参与人i=1,2;
❖ 参与人1的行动空间A1={L,R} ❖ 参与人1的类型空间T1={t11,t12} ❖ 参与人2的行动空间A2={A,B} ❖ 参与人2的类型空间T2={t2},单点集,因此
第七章 不完全信息动态博弈
❖ 至少部分博弈方没有关于得益 全部信息的动态博弈,称“不完 全信息动态博弈”或“动态贝叶 斯博弈’。
❖ 在不完全信息动态博弈中,按照海萨尼转换, 博弈进行的先后顺序可以描述为:
❖ 首先,“自然” 选择参与人的类型,参与人 自己知道,其他参与人不知道;
❖ 其次,参与人开始行动,参与人的行动有先 有后,后行动者能观测到先行动者的行动, 但不能观测到先行动者的类型。
❖ [例子]:市场进入博弈(该博弈的扩展式表述模型 见图7.2)
❖ 如果我们将从每一个信息集开始的博弈 的剩余部分称为一个“后续博弈”(注 意与子博弈的不同:子博弈必须开始于 单结信息集),一个“合理”的均衡应 该满足:
❖ 给定每一个参与人有关其它参与人类型 的后验信息,参与人的战略组合在每一 个后续博弈上构成贝叶斯均衡。
❖ 参与人1知道理性的参与人2轮到他决策 的信息集h2上会选择B,因此参与人的最 优战略就是R(t12).
❖ 既然参与人1决定选择R(t12),因此参与 人2修正的信念推断是
p(t11 | R) 0, p(t12 | R) 1,
❖ ,所以就删掉了( L,A )
7.1 精炼贝叶斯纳什均衡
❖ 7.1.1后续博弈 ❖ 引入精炼贝叶斯均衡的目的是:
❖ 参与人的行动是类型依存的,每个参与人的 行动都传递着有关自己类型的某种信息,
❖ 后行动者可以通过观察先行动者所选择的行 动来推断其类型或修正对其类型的先验信念 (概率分布),然后选择自己的最优行动。
❖ 先行动者预测到自己的行动将被后行动 者所利用,就会设法选择传递对自己最 有利的信息,避免传递对自己不利的信 息。
❖ 精炼贝叶斯均衡是贝叶斯均衡、子博弈精练 均衡和贝叶斯推断的结合。它要求:
❖ (1)在每一个信息集上,决策者必须有一 个定义在属于该信息集的所有决策结上的一 个概率分布(信念);
❖ (2)给定该信息集上的概率分布和其他参 与人的后续战略,参与人的行动必须是最优 的;
❖ (3)每一个参与人根据贝叶斯法则和均衡 战略修正后验概率。